KR20240021975A - 종양 평가를 위한 물질 및 방법 - Google Patents

종양 평가를 위한 물질 및 방법 Download PDF

Info

Publication number
KR20240021975A
KR20240021975A KR1020247001904A KR20247001904A KR20240021975A KR 20240021975 A KR20240021975 A KR 20240021975A KR 1020247001904 A KR1020247001904 A KR 1020247001904A KR 20247001904 A KR20247001904 A KR 20247001904A KR 20240021975 A KR20240021975 A KR 20240021975A
Authority
KR
South Korea
Prior art keywords
seq
fragment
region
human
dna
Prior art date
Application number
KR1020247001904A
Other languages
English (en)
Inventor
루이 리우
청청 마
민지에 쉬
진 쑨
이잉 리우
지시 수
민양 수
치예 허
청샹 궁
Original Assignee
싱글레라 제노믹스 (지앙수) 엘티디
싱글레라 제노믹스 (차이나) 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202110679281.8A external-priority patent/CN115491421A/zh
Priority claimed from CN202110680924.0A external-priority patent/CN115491411A/zh
Priority claimed from CN202111191903.9A external-priority patent/CN115985486A/zh
Application filed by 싱글레라 제노믹스 (지앙수) 엘티디, 싱글레라 제노믹스 (차이나) 엘티디. filed Critical 싱글레라 제노믹스 (지앙수) 엘티디
Publication of KR20240021975A publication Critical patent/KR20240021975A/ko

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2527/00Reactions demanding special reaction conditions
    • C12Q2527/146Concentration of target or template
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2531/00Reactions of nucleic acids characterised by
    • C12Q2531/10Reactions of nucleic acids characterised by the purpose being amplify/increase the copy number of target nucleic acid
    • C12Q2531/113PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/107Nucleic acid detection characterized by the use of physical, structural and functional properties fluorescence
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/50Determining the risk of developing a disease

Landscapes

  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Databases & Information Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 출원은 종양을 평가하기 위한 물질 및 방법에 관한 것이다. 특히, 본 출원은 대상의 종양 발달 위험 및/또는 종양 진행을 평가하기 위한 물질, 키트, 장치, 시스템 및 방법을 제공한다. 예를 들어, 본 출원은 대상체로부터 선택된 표적 폴리뉴클레오티드 서열의 메틸화 상태에 기초하여 대상체에서 종양 형성 위험 및/또는 종양 진행을 평가하는 방법을 제공한다.

Description

종양 평가를 위한 물질 및 방법
본 출원은 생물의학 분야에 관한 것이며, 특히 종양을 평가하기 위한 물질 및 방법에 관한 것이다.
췌장관 선암종(PDAC)과 같은 췌장암은 세계에서 가장 치명적인 질병 중 하나이다. 5년 상대생존율은 9%이며, 원격전이 환자의 경우 이 비율은 3%로 더욱 낮아진다. 사망률이 높은 주요 이유는 PDAC의 조기 발견 방법이 여전히 제한되어 있기 때문이며, 이는 PDAC 환자가 수술적 절제를 받는 데 매우 중요한다. 내시경 초음파 유도 미세침 흡인(EUS-FNA)은 개복술 없이 병리학적 진단을 얻는 또 다른 일반적인 방법이지만 침습적이고 명확한 영상 증거가 필요하며 이는 일반적으로 PDAC가 이미 진행되었음을 의미한다. 종양이 발생하고 발달하는 동안 악성 세포의 DNA 메틸화 패턴과 게놈 DNA 수준에 심각한 변화가 발생한다. 일부 종양 특이적 DNA 메틸화는 종양 형성 초기에 발생하는 것으로 나타났으며 종양 형성의 "동인"이 될 수 있다. 순환 종양 DNA(ctDNA) 분자는 세포사멸 또는 괴사 종양 세포에서 파생되며 초기 악성 종양의 종양 특이적 DNA 메틸화 마커를 운반한다. 최근에는 다양한 암에 대한 비침습적 조기 검진 도구 개발을 위한 새로운 유망 타깃으로 연구되고 있다. 그러나 이들 연구의 대부분은 효과적인 결과를 얻지 못했다.
따라서, 혈장 DNA로부터 췌장암 종양 특이적 마커를 확인할 수 있는 물질 및 방법에 대한 필요성이 업계에 절실히 요구되고 있다.
본 출원은 검출 결과의 차별적인 유전자 메틸화 수준을 이용하여 췌장암을 식별하기 위한 검체 내 표적 유전자 및/또는 표적 서열의 메틸화 수준을 검출함으로써 보다 높은 정확도와 낮은 비용으로 비침습적이고 정밀한 췌장암 진단의 목적을 달성할 수 있다.
한 측면에서, 본 출원은 DNA 메틸화를 검출하기 위한 시약을 제공하며, 여기서 상기 시약은 검출할 대상의 시료 내 DNA 서열 또는 이의 단편의 메틸화 수준, 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 검출하기 위한 시약을 포함하고, 상기 DNA 서열은 다음 유전자 서열 중 하나 이상 또는 모두, 또는 이의 상류 또는 하류 20kb 내의 서열로부터 선택된다: DMRTA2, FOXD3, TBX15, BCAN, TRIM58, SIX3, VAX2, EMX1, LBX2, TLX2, POU3F3, TBR1, EVX2, HOXD12, HOXD8, HOXD4, TOPAZ1, SHOX2, DRD5, RPL9, HOPX, SFRP2, IRX4, TBX18, OLIG3, ULBP1, HOXA13, TBX20, IKZF1, INSIG1, SOX7, EBF2, MOS, MKX, KCNA6, SYT10, AGAP2, TBX3, CCNA1, ZIC2, CLEC14A, OTX2, C14orf39, BNC1, AHSP, ZFHX3, LHX1, TIMP2, ZNF750 및 SIM2. 본 출원은 또한 서열번호 1-56에 기재된 서열을 포함하며, 췌장암 관련 유전자로서 상기 언급된 유전자 중에서 선택된 표적 서열을 갖는 메틸화 마커를 제공한다. 본 출원은 또한 상기 언급된 표적 유전자 및/또는 표적 서열 DNA 서열 또는 이의 단편 및/또는 이의 메틸화 정보를 운반하는 매체 및 장치를 제공한다. 본 출원은 개체의 췌장암 진단용 키트를 제조하는데 있어 상기 언급된 표적 유전자 및/또는 표적 서열 DNA 서열 또는 이의 단편 및/또는 이의 메틸화 정보의 용도를 추가로 제공한다. 본 출원은 상기 언급된 키트를 추가로 제공한다.
또 다른 측면에서, 본 출원은 DNA 메틸화를 검출하기 위한 시약을 제공하며, 여기서 상기 시약은 검출할 대상의 시료 내 DNA 서열 또는 이의 단편의 메틸화 수준, 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 검출하기 위한 시약을 포함하고, 상기 DNA 서열은 다음 유전자 서열 중 하나 이상(예: 적어도 7개) 또는 전부, 또는 이의 상류 또는 하류 20kb 내의 서열로부터 선택된다: SIX3, TLX2 및 CILP2. 본 출원은 또한 서열번호 57-59에 기재된 서열을 포함하여, 췌장암 관련 유전자로서 상기 언급된 유전자 중에서 선택된 표적 서열을 갖는 메틸화 마커를 제공한다. 본 출원은 또한 상기 언급된 표적 유전자 및/또는 표적 서열 DNA 서열 또는 이의 단편 및/또는 이의 메틸화 정보를 운반하는 매체 및 장치를 제공한다. 본 출원은 개체의 췌장암 진단용 키트를 제조하는데 있어 상기 언급된 표적 유전자 및/또는 표적 서열 DNA 서열 또는 이의 단편 및/또는 이의 메틸화 정보의 용도를 추가로 제공한다. 본 출원은 상기 언급된 키트를 추가로 제공한다.
또 다른 측면에서, 본 출원은 DNA 메틸화를 검출하기 위한 시약을 제공하며, 여기서 상기 시약은 검사할 샘플에서 DNA 서열 또는 이의 단편의 메틸화 수준, 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 검출하기 위한 시약을 포함하고, 상기 DNA 서열은 다음 유전자 서열 중 하나 이상(예: 적어도 7개) 또는 전부, 또는 이의 상류 또는 하류 20kb 내의 서열로부터 선택된다: ARHGEF16, PRDM16, NFIA, ST6GALNAC5, PRRX1, LHX4, ACBD6, FMN2, CHRM3, FAM150B, TMEM18, SIX3, CAMKMT, OTX1, WDPCP, CYP26B1, DYSF, HOXD1, HOXD4, UBE2F, RAMP1, AMT, PLSCR5, ZIC4, PEX5L, ETV5, DGKG, FGF12, FGFRL1, RNF212, DOK7, HGFAC, EVC, EVC2, HMX1, CPZ, IRX1, GDNF, AGGF1, CRHBP, PITX1, CATSPER3, NEUROG1, NPM1, TLX3, NKX2-5, BNIP1, PROP1, B4GALT7, IRF4, FOXF2, FOXQ1, FOXC1, GMDS, MOCS1, LRFN2, POU3F2, FBXL4, CCR6, GPR31, TBX20, HERPUD2, VIPR2, LZTS1, NKX2-6, PENK, PRDM14, VPS13B, OSR2, NEK6, LHX2, DDIT4, DNAJB12, CRTAC1, PAX2, HIF1AN, ELOVL3, INA, HMX2, HMX3, MKI67, DPYSL4, STK32C, INS, INS-IGF2, ASCL2, PAX6, RELT, FAM168A, OPCML, ACVR1B, ACVRL1, AVPR1A, LHX5, SDSL, RAB20, COL4A2, CARKD, CARS2, SOX1, TEX29, SPACA7, SFTA3, SIX6, SIX1, INF2, TMEM179, CRIP2, MTA1, PIAS1, SKOR1, ISL2, SCAPER, POLG, RHCG, NR2F2, RAB40C, PIGQ, CPNE2, NLRC5, PSKH1, NRN1L, SRR, HIC1, HOXB9, PRAC1, SMIM5, MYO15B, TNRC6C, 9-Sep, TBCD, ZNF750, KCTD1, SALL3, CTDP1, NFATC1, ZNF554, THOP1, CACTIN, PIP5K1C, KDM4B, PLIN3, EPS15L1, KLF2, EPS8L1, PPP1R12C, NKX2-4, NKX2-2, TFAP2C, RAE1, TNFRSF6B, ARFRP1, MYH9 및 TXN2. 본 출원은 또한 서열번호 60-160에 기재된 서열을 포함하여, 췌장암 관련 유전자로서 상기 언급된 유전자 중에서 선택된 표적 서열을 갖는 메틸화 마커를 제공한다. 본 출원은 또한 상기 언급된 표적 유전자 및/또는 표적 서열 DNA 서열 또는 이의 단편 및/또는 이의 메틸화 정보를 운반하는 매체 및 장치를 제공한다. 본 출원은 개체의 췌장암 진단용 키트를 제조하는데 있어 상기 언급된 표적 유전자 및/또는 표적 서열 DNA 서열 또는 이의 단편 및/또는 이의 메틸화 정보의 용도를 추가로 제공한다. 본 출원은 상기 언급된 키트를 추가로 제공한다.
다른 측면에서, 본 출원은 보다 높은 정확도와 저렴한 비용으로 비침습적, 정밀한 췌장암 진단 목적을 달성하기 위하여, 환자의 혈장 샘플에서 DNA 메틸화를 검출하고, 타겟 메틸화 마커의 메틸화 수준 데이터와 CA19-9 검출 결과를 기반으로 췌장암을 진단하기 위한 기계 학습 모델을 구축하는 것을 제공한다. 또한, 본 출원은 다음 단계를 포함하는 췌장암 진단 방법 또는 췌장암 진단 모델 구축 방법을 제공한다: (1) 피험자의 시료 내 DNA 서열 또는 이의 단편의 메틸화 수준 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준, 및 피험자의 CA19-9 수준을 획득하는 단계, (2) 메틸화 점수를 얻기 위해 수학적 모델을 사용하여 메틸화 상태 또는 수준을 사용하여 계산하는 단계, (3) 메틸화 점수와 CA19-9 수준을 데이터 매트릭스로 결합하는 단계, (4) 데이터 매트릭스를 기반으로 췌장암 진단 모델을 구축하는 단계, 그리고 선택적으로 (5) 췌장암 점수를 얻는 단계; 및 췌장암 점수를 바탕으로 췌장암을 진단하는 단계. 하나 이상의 실시양태에서, DNA 서열은 다음 유전자 서열, 또는 이의 20kb 상류 또는 하류 내의 서열 중 하나 이상(예를 들어, 적어도 2개) 또는 모두로부터 선택된다: SIX3, TLX2, CILP2. 바람직하게는, DNA 서열은 다음 조합 중 임의의 것으로부터 선택된 유전자 서열을 포함한다: (1) SIX3, TLX2; (2) SIX3, CILP2; (3) TLX2, CILP2; (4) SIX3, TLX2, CILP2. 또한, 본 출원은 다음 단계를 포함하는 췌장암 진단 방법을 제공한다: (1) 피험자의 시료 내 DNA 서열 또는 이의 단편의 메틸화 수준 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준, 및 피험자의 CA19-9 수준을 획득하는 단계, (2) 메틸화 점수를 얻기 위해 수학적 모델을 사용하여 메틸화 상태 또는 수준을 사용하여 계산하는 단계 (3) 아래 표시된 모델을 기반으로 췌장암 점수를 얻는 단계; 및 췌장암 점수를 바탕으로 췌장암을 진단하는 단계:
여기서 상기 M은 단계 (2)에서 계산된 샘플의 메틸화 점수이고, C는 샘플의 CA19-9 수준이다. 하나 이상의 실시양태에서, 상기 DNA 서열은 다음 유전자 서열, 또는 이의 20kb 상류 또는 하류 내의 서열 중 하나 이상(예를 들어, 적어도 2개) 또는 모두로부터 선택된다: SIX3, TLX2, CILP2. 바람직하게는, 상기 DNA 서열은 다음 조합 중 임의의 것으로부터 선택된 유전자 서열을 포함한다: (1) SIX3, TLX2; (2) SIX3, CILP2; (3) TLX2, CILP2; (4) SIX3, TLX2, CILP2. 또한, 본 출원은 다음단계를 포함하는 췌장암 진단모델의 구축방법을 제공한다: (1) 개체에서 게놈 DNA 세그먼트의 메틸화된 일배체형 분획 및 서열분석 깊이를 획득하는 단계, 그리고 선택적으로, (2) 메틸화된 일배체형 분획 및 서열분석 깊이 데이터를 전처리하는 단계,(3) 특징 메틸화된 세그먼트를 얻기 위해 교차 검증 증분 특징 선택을 수행하는 단계, (4) 메틸화 특징점의 메틸화 검출 결과에 대한 수학적 모델을 구축하여 메틸화 점수를 얻는 단계, (5) 메틸화 점수와 해당 CA19-9 수준을 기반으로 췌장암 진단 모델을 구축하는 단계. 하나 이상의 실시양태에서, 상기 단계 (1)은 다음을 포함한다: 1.1) 시퀀싱 판독 데이터를 얻기 위해 대상 샘플의 DNA 메틸화를 검출하는 단계, 1.2) 선택적으로 어댑터 제거 및/또는 접합과 같은 시퀀싱 데이터를 전처리하는 단계, 1.3) 시퀀싱 데이터를 참조 게놈에 정렬하여 메틸화된 세그먼트의 위치 및 시퀀싱 깊이 정보를 얻는 단계, 1.4) 다음 공식에 따라 세그먼트의 메틸화 일배체형 분획(methylated haplotype fraction; MHF)을 계산하는 단계:
여기서 i는 표적 메틸화 영역을 나타내고, h는 표적 메틸화 일배체형을 나타내고, Ni는 표적 메틸화 영역에 위치한 읽기 수를 나타내고, Ni,h는 표적 메틸화 일배체형을 포함하는 읽기 수를 나타낸다. 본 출원은 췌장암 진단용 키트의 제조에 있어 DNA 메틸화를 검출하기 위한 시약 또는 장치와 CA19-9 수준을 검출하기 위한 시약 또는 장치의 용도를 추가로 제공하며, 여기서 상기 DNA 메틸화를 검출하기 위한 시약 또는 장치는 DNA 서열 또는 이의 단편의 메틸화 수준, 또는 피험자의 시료 내 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 결정하는 데 사용된다. 본 출원은 상기 언급된 키트를 추가로 제공한다. 본 출원은 또한 메모리, 프로세서, 및 메모리에 저장되고 프로세서에서 실행 가능한 컴퓨터 프로그램을 포함하는 췌장암 진단 또는 췌장암 진단 모델 구축 장치를 제공하며, 상기 단계는 프로세서가 프로그램을 실행함으로써 구현된다.
또 다른 측면에서, 본 출원은 검사할 샘플에서 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A 및/또는 TWIST1 또는 이의 단편을 갖는 DNA 영역의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는, 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하는 방법을 제공한다. 또한, 본 출원은 시험할 샘플 내에서 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래된 DNA 영역 또는 이의 상보적 영역, 또는 이의 단편으로 구성된 군에서 선택되는 DNA 영역의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는, 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하는 방법을 제공한다. 상기 'chr'은 염색체를 의미한다. 예를 들어, chr2는 2번 염색체를 의미한다. 또한, 본 출원은 상기 단편의 변형 상태를 확인하기 위한 프로브 및/또는 프라이머 조합을 제공한다. 또한, 본 출원은 상기 언급된 물질을 포함하는 키트를 제공한다. 또 다른 측면에서, 본 출원은 질병 검출 제품의 제조에 있어서 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트의 용도를 제공한다. 또 다른 측면에서, 본 출원은 질병의 존재를 결정하고, 질병의 발생 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하기 위한 물질의 제조에 있어서 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트의 용도를 제공한다. 또한, 본 출원은 본 출원의 방법을 실행할 수 있는 프로그램을 기록한 저장 매체를 제공한다. 또 다른 측면에서, 본 출원은 본 출원의 저장 매체를 포함하는 장치를 제공한다.
또 다른 측면에서, 본 출원은 검사할 샘플에서 유전자 EBF2 및 CCNA1; 또는 KCNA6, TLX2 및 EMX1; 또는 TRIM58, TWIST1, FOXD3 및 EN2; 또는 TRIM58, TWIST1, CLEC11A, HOXD10 및 OLIG3; 또는 이의 단편을 갖는 DNA 영역의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는, 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하는 방법을 제공한다.
또한, 본 출원은 시험할 샘플 내에서 인간 chr8:25907849-25907950에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr2:74743035-74743151에서 유래, 인간 chr2:73147525-73147644에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래된 DNA 영역, 또는 이의 상보적 영역, 또는 이의 단편으로 구성된 군에서 선택되는 DNA 영역의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는, 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하는 방법을 제공한다. 또한, 본 출원은 상기 단편의 변형 상태를 확인하기 위한 프로브 및/또는 프라이머 조합을 제공한다. 또한, 본 출원은 상기 언급된 물질 조합을 포함하는 키트를 제공한다. 또 다른 측면에서, 본 출원은 질병 검출 제품의 제조에 있어서 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트의 용도를 제공한다. 또 다른 측면에서, 본 출원은 질병의 존재를 결정하고, 질병의 발생 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하기 위한 물질의 제조에 있어서 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트의 용도를 제공한다. 또한, 본 출원은 본 출원의 방법을 실행할 수 있는 프로그램을 기록한 저장 매체를 제공한다. 또 다른 측면에서, 본 출원은 본 출원의 저장 매체를 포함하는 장치를 제공한다.
당업자는 아래의 상세한 설명으로부터 본 출원의 다른 측면 및 이점을 쉽게 인식할 것이다. 이하의 상세한 설명에서는 본 출원의 예시적인 실시예만이 도시되고 설명된다. 당업자가 인식하는 바와 같이, 본 출원의 내용은 당업자가 본 출원에서 다루는 본 발명의 사상 및 범위를 벗어나지 않고 개시된 특정 실시예에 대한 변경을 가할 수 있게 한다. 따라서, 본 출원의 명세서에 기재된 도면 및 설명은 단지 예시적인 것이며 제한적이지 않다.
본 출원과 관련된 본 발명의 특정 특징은 첨부된 청구범위에 기재되어 있다. 본 출원과 관련된 본 발명의 특징 및 장점은 아래에 상세히 설명되는 예시적인 실시예 및 도면을 참조하여 더 잘 이해될 수 있다. 도면에 대한 간략한 설명은 다음과 같다.
도 1은 본 출원의 실시예에 따른 기술방안의 흐름도이다.
도 2는 시험군의 췌장암 진단을 위한 췌장암 예측 모델 Model CN의 ROC 곡선을 나타내고, 가로축은 "위양성률", 세로축은 "진양성률"이다.
도 3은 췌장암 예측 모델 Model CN의 그룹별 예측 점수 분포를 나타내며 세로축에 "모델 예측 값"을 표시한다.
도 4는 훈련 그룹에서 SEQ ID NO: 1-56의 56개 서열의 메틸화 수준을 보여주며, 세로축에는 "메틸화 수준"이 표시되어 있다.
도 5는 시험군에서 서열번호 1-56의 56개 서열의 메틸화 수준을 나타내며, 세로축에는 "메틸화 수준"이 표시되어 있다.
도 6은 CA19-9 단독, 본 출원만으로 구축된 SVM 모델 모델 CN, CA19-9와 결합된 본 출원에 의해 구축된 모델에 대한 분류 ROC 곡선을 보여주며, CA19-9와 결합된 본 출원에 의해 구축된 모델은 가로축에 "거짓양성률", 세로축에 "참양성률"이 있다.
도 7은 CA19-9 단독, 본 출원 단독으로 구축된 SVM 모델 Model CN에 대한 분류 예측 점수의 분포를 나타내고, CA19-9와 결합된 본 출원에 의해 구축된 모델은 세로축에 "모델 예측 값"을 갖는다.
도 8은 종양 마커 CA19-9(CA19-9 측정 값이 37 미만)에 대해 음성으로 판정된 샘플에서 본 출원에서 구축된 SVM 모델 모델 CN의 ROC 곡선을 보여주고, 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 9는 서열번호 9,14,13,26,40,43,52의 7개 마커조합 모델의 ROC 곡선을 보여주며, 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 10은 서열번호 5,18,34,40,43,45,46의 7개 마커 조합 모델의 ROC 곡선을 보여주며, 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 11은 서열번호 11,8,20,44,48,51,54의 7개 마커 조합 모델의 ROC 곡선을 보여주면, 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 12는 서열번호 14,8,26,24,31,40,46의 7개 마커 조합 모델의 ROC 곡선을 보여주며, 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 13은 서열번호 3,9,8,29,42,40,41의 7개 마커 조합 모델의 ROC 곡선을 보여주며 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 14는 서열번호 5,8,19,7,44,47,53의 7개 마커의 조합 모델의 ROC 곡선을 보여주며, 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 15는 서열번호 12,17,24,28,40,42,47의 7개 마커 조합 모델의 ROC 곡선을 보여주며, 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 16은 서열번호 5,18,14,10,8,19,27의 7개 마커 조합 모델의 ROC 곡선을 보여주며, 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 17은 서열번호 6,12,20,26,24,47,50의 7개 마커 조합 모델의 ROC 곡선을 보여주며, 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 18은 서열번호 1,19,27,34,37,46,47의 7개 마커 조합 모델의 ROC 곡선을 보여주며, 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 19는 훈련 그룹(training group)과 시험군에서 만성췌장염과 췌장암을 구별하기 위한 췌장암 예측모델의 ROC 곡선을 나타낸 것이고, 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 20은 췌장암 예측모델의 그룹별 예측점수 분포를 나타낸 것이며, 세로축은 "모델 예측값"이다.
도 21은 훈련 그룹의 3개 메틸화 마커의 메틸화 수준을 보여주며, 세로축에는 "메틸화 수준"이 표시되어 있다.
도 22는 시험군에서 3개의 메틸화 마커의 메틸화 수준을 보여주며, 세로축에는 "메틸화 수준"이 표시되어 있다.
도 23은 전통적인 방법에 의해 결정된 음성 샘플(즉, CA19-9 측정값이 37 미만)에서 췌장암을 진단하기 위한 췌장암 예측 모델의 ROC 곡선을 도시하며, 가로축에 '위양성률', 세로축에 '진양성률'이 있다.
도 24는 본 출원에 따른 특징 매트릭스에 기초하여 메틸화 마커를 스크리닝하기 위한 흐름도를 보여준다.
도 25는 101개 마커의 예측 점수 분포를 보여준다.
도 26은 101개 마커의 ROC 곡선을 보여준다.
도 27은 6개 마커의 예측 점수 분포를 보여준다.
도 28은 6개 마커의 ROC 곡선을 보여준다.
도 29는 7개 마커의 예측 점수 분포를 보여준다.
도 30은 7개 마커의 ROC 곡선을 보여준다.
도 31은 10개 마커의 예측 점수 분포를 보여준다.
도 32는 10개 마커의 ROC 곡선을 보여준다.
도 33은 DUALMODEL 마커의 예측 점수 분포를 보여준다.
도 34는 DUALMODEL 마커의 ROC 곡선을 보여준다.
도 35는 ALLMODEL 마커의 예측 점수 분포를 보여준다.
도 36은 ALLMODEL 마커의 ROC 곡선을 보여준다.
도 37은 본 발명의 실시예에 따른 기술 솔루션의 흐름도를 도시한다.
도 38은 훈련 그룹의 3가지 메틸화 마커의 메틸화 수준 분포를 보여준다.
도 39는 시험 그룹의 3가지 메틸화 마커의 메틸화 수준 분포를 보여준다.
도 40은 테스트 세트 내 CA19-9, 췌장암 및 췌장염 구별 예측 모델 pp_model 및 cpp_model의 ROC 곡선을 나타낸 것이다.
도 41은 테스트 세트 샘플 중 CA19-9, 췌장암 및 췌장염 구별 예측 모델 pp_model 및 cpp_model의 예측 점수 분포를 나타낸다(값은 최대값과 최소값을 이용하여 정규화함).
이하, 구체적인 실시예를 들어 본 출원 발명의 실시예를 설명한다. 당업자는 명세서의 개시로부터 본 출원 발명의 다른 장점 및 효과를 용이하게 이해할 수 있을 것이다.
용어 정의
본 출원에서, "검사할 샘플"이라는 용어는 일반적으로 테스트가 필요한 샘플을 의미다. 예를 들어, 검사할 샘플의 하나 이상의 유전자 영역이 변형되었는지 여부를 감지할 수 있다.
본 출원에서, 용어 "무세포 핵산" 또는 "cfDNA"는 일반적으로 수집 시 세포 내에 포함되지 않는 샘플 내 DNA를 의미한다. 예를 들어, 무세포 핵산은 세포나 조직의 시험관 내 파괴에 의해 세포내에서 벗어나게 되는 DNA를 의미하지 않을 수 있다. 예를 들어, cfDNA에는 정상 세포와 암세포 모두에서 유래된 DNA가 포함될 수 있다. 예를 들어, cfDNA는 혈액이나 혈장("순환계")에서 얻을 수 있다. 예를 들어, cfDNA는 분비 또는 괴사 또는 세포사멸과 같은 세포 사멸 과정을 통해 순환계로 방출될 수 있다.
본 출원에서, "상보적 핵산"이라는 용어는 일반적으로 참조 뉴클레오티드 서열에 상보적인 뉴클레오티드 서열을 의미한다. 예를 들어, 상보적 핵산은 선택적으로 반대 방향을 갖는 핵산 분자일 수 있다. 예를 들어, 상보성은 다음과 같은 상보적인 연관성을 갖는 것을 의미할 수 있다: 구아닌 및 시토신; 아데닌 및 티민; 아데닌과 우라실.
본 출원에서, 용어 "DNA 영역"은 일반적으로 2개 이상의 공유 결합된 자연 발생 또는 변형된 데옥시리보뉴클레오티드의 서열을 의미한다. 예를 들어, 유전자의 DNA 영역은 유전자가 위치하는 특정 데옥시리보뉴클레오티드 서열의 위치를 나타낼 수 있으며, 예를 들어 데옥시리보뉴클레오티드 서열은 유전자를 인코딩한다. 예를 들어, 본 출원의 DNA 영역은 DNA 영역의 전체 길이, 이의 상보적인 영역, 또는 이의 단편을 포함한다. 예를 들어, 본 출원에서 제공된 검출 영역의 상류 및 하류에 적어도 약 20kb의 서열이 검출 부위로 사용될 수 있다.
본 출원에서, 용어 "DNA 영역"은 일반적으로 2개 이상의 공유 결합된 자연 발생 또는 변형된 데옥시리보뉴클레오티드의 서열을 의미한다. 예를 들어, 유전자의 DNA 영역은 유전자가 위치하는 특정 데옥시리보뉴클레오티드 서열의 위치를 나타낼 수 있으며, 예를 들어 데옥시리보뉴클레오티드 서열은 유전자를 인코딩한다. 예를 들어, 본 출원의 DNA 영역은 DNA 영역의 전체 길이, 이의 상보적인 영역, 또는 이의 단편을 포함한다. 예를 들어, 본 출원에서 제공된 검출 영역의 상류 및 하류에 적어도 약 20kb의 서열이 검출 부위로 사용될 수 있다. 예를 들어, 본 출원에서 제공하는 검출 영역의 상류 및 하류에 적어도 약 20kb, 적어도 약 15kb, 적어도 약 10kb, 적어도 약 5kb, 적어도 약 3kb, 적어도 약 2kb, 적어도 약 1kb, 또는 적어도 약 0.5kb의 서열을 검출 부위로 사용할 수 있다. 예를 들어, 샘플의 메틸화를 검출하기 위해 마이크로컴퓨터를 사용하여 위에서 설명한 내용에 따라 적절한 프라이머 및 프로브를 설계할 수 있다.
본 출원에서 용어 "변형 상태"는 일반적으로 본 출원에서의 유전자 단편, 뉴클레오티드 또는 이의 염기의 변형 상태를 의미한다. 예를 들어, 본 출원에서의 변형 상태는 시토신의 변형 상태를 의미할 수 있다. 예를 들어, 본 출원에서 변형 상태를 갖는 유전자 단편은 변경된 유전자 발현 활성을 가질 수 있다. 예를 들어, 본 출원에서의 변형 상태는 염기의 메틸화 변형을 의미할 수 있다. 예를 들어, 본 출원에서의 변형 상태는 게놈 DNA의 CpG 영역에서 시토신의 5' 탄소 위치에 있는 메틸기의 공유 결합을 의미할 수 있으며, 이는 예를 들어 5-메틸시토신(5mC)이 될 수 있다. 예를 들어, 변형 상태는 DNA 서열 내 5-메틸시토신("5-mCyt")의 존재 또는 부재를 나타낼 수 있다.
본 출원에서 용어 "메틸화"는 일반적으로 본 출원에서 유전자 단편, 뉴클레오티드 또는 이의 염기의 메틸화 상태를 의미한다. 예를 들어, 본 출원에서 유전자가 위치한 DNA 세그먼트는 하나 이상의 가닥에 메틸화가 있을 수 있다. 예를 들어, 본 출원에서 유전자가 위치한 DNA 세그먼트는 하나 이상의 부위에 메틸화가 있을 수 있다.
본 출원에서, "변환(conversion)"이라는 용어는 일반적으로 하나 이상의 구조를 다른 구조로 변환하는 것을 의미한다. 예를 들어, 본 출원의 변환은 구체적일 수 있다. 예를 들어, 메틸화 변형이 없는 시토신은 변환 후 다른 구조(예: 우라실)로 바뀔 수 있으며, 메틸화 변형이 있는 시토신은 변환 후 기본적으로 변경되지 않은 상태로 유지될 수 있다. 예를 들어, 메틸화 변형이 없는 시토신은 변환 후에 절단될 수 있고, 메틸화 변형이 있는 시토신은 변환 후에도 기본적으로 변하지 않은 채로 남아 있을 수 있다.
본 출원에서, "탈아민화제"라는 용어는 일반적으로 아미노기를 제거하는 능력을 갖는 물질을 의미한다. 예를 들어, 탈아민화 시약은 변형되지 않은 시토신을 탈아민화할 수 있다.
본 출원에서, 용어 "바이설파이트"는 일반적으로 변형 상태를 갖는 DNA 영역과 변형 상태를 갖지 않는 DNA 영역을 구별할 수 있는 시약을 의미한다. 예를 들어, 바이설파이트는 바이설파이트, 이들의 유사체, 또는 이들의 조합을 포함할 수 있다. 예를 들어, 중아황산염은 변형되지 않은 시토신의 아미노 그룹을 탈아미노화하여 변형된 시토신과 구별할 수 있다. 본 출원에서 "유사체(analogue)"라는 용어는 일반적으로 유사한 구조 및/또는 기능을 갖는 물질을 의미한다. 예를 들어, 중아황산염 유사체는 중아황산염과 유사한 구조를 가질 수 있다. 예를 들어, 바이설파이트 유사체는 변형 상태를 갖는 DNA 영역과 변형 상태를 갖지 않는 DNA 영역을 구별할 수 있는 시약을 의미할 수도 있다.
본 출원에서 용어 "메틸화 민감성 제한 효소"는 일반적으로 인식 부위의 메틸화 상태에 따라 핵산을 선택적으로 분해하는 효소를 의미한다. 예를 들어, 인식 부위가 메틸화되지 않은 경우 특이적으로 절단하는 제한 효소의 경우, 인식 부위가 메틸화되는 경우 절단이 발생하지 않거나 효율성이 크게 감소하여 발생할 수 있다. 인식 부위가 메틸화될 때 특이적으로 절단하는 제한 효소의 경우, 인식 부위가 메틸화되지 않으면 절단이 일어나지 않거나 효율성이 크게 감소하여 발생할 수 있다. 예를 들어, 메틸화 특이적 제한 효소는 CG 디뉴클레오티드(예: cgcg 또는 cccggg)를 포함하는 서열을 인식할 수 있다.
본 출원에서, 용어 "종양"은 일반적으로 정상적인 성장 및/또는 발달 동안 조절의 적어도 부분적 상실을 나타내는 세포 및/또는 조직을 지칭한다. 예를 들어, 일반적인 종양이나 암세포는 접촉 억제 기능을 상실한 경우가 많으며 침습적이거나 전이할 수 있는 능력이 있을 수 있다. 예를 들어, 본 출원의 종양은 양성이거나 악성일 수 있다.
본 출원에서, 용어 "진행"은 일반적으로 질병이 덜 심각한 상태에서 더 심각한 상태로 변화하는 것을 의미한다. 예를 들어, 종양 진행에는 종양 수 또는 중증도, 암세포 전이 정도, 암이 성장하거나 확산되는 속도의 증가가 포함될 수 있다. 예를 들어, 종양 진행은 암이 덜 심각한 상태에서 더 심각한 상태로, 예를 들어 1기에서 2기로, 2기에서 3기로 진행하는 것을 포함할 수 있다.
본 출원에서, 용어 "발달"은 일반적으로 개인에게 병변이 발생하는 것을 의미한다. 예를 들어, 종양이 발생하면 개인은 종양 환자로 진단될 수 있다.
본 출원에서, "형광 PCR"이라는 용어는 일반적으로 정량적 또는 반정량적 PCR 기술을 의미한다. 예를 들어, PCR 기술은 실시간 정량적 중합효소연쇄반응, 정량적 중합효소연쇄반응, 동적 중합효소연쇄반응 등이 될 수 있다. 예를 들어, 인터칼레이팅(intercalating) 형광염료나 서열=특이적 Probe를 이용한 PCR 증폭을 이용하여 표적핵산의 초기량을 정량적으로 검출할 수 있으며, 상기 서열-특이적 프로브는 표적 핵산에 혼성화되는 경우에만 검출가능한 형광 리포터를 함유할 수 있다.
본 출원에서, "PCR 증폭"이라는 용어는 일반적으로 중합효소 연쇄 반응을 의미한다. 예를 들어, 본 출원에서의 PCR 증폭은 DNA 증폭에 사용되는 것으로 현재 알려진 임의의 폴리머라제 사슬 증폭 반응을 포함할 수 있다.
본 출원에서 용어 "형광 Ct 값"은 일반적으로 표적핵산의 정량적 또는 반정량적 평가를 위한 측정값을 의미한다. 예를 들어, 형광 신호가 설정된 임계값에 도달할 때 경험하는 증폭 반응 주기의 수를 나타낼 수 있다.
발명의 상세한 설명
본 출원의 메틸화 핵산 단편 마커에 기초하여, 췌장암을 효과적으로 식별할 수 있으며; 본 출원은 혈장 cfDNA 고처리량 메틸화 서열 분석을 기반으로 cfDNA 메틸화 마커와 췌장암 사이의 관계에 대한 진단 모델을 제공한다. 이 모델은 비침습적이고 안전하며 편리한 검출, 높은 처리량 및 높은 검출 특이성의 장점을 가지고 있다. 본 출원에서 얻은 최적의 시퀀싱을 기반으로 우수한 탐지 효과를 달성하면서도 탐지 비용을 효과적으로 제어할 수 있다. 본 발명의 DNA 메틸화 마커를 기반으로 췌장암 환자와 만성 췌장염 환자를 효과적으로 구별할 수 있다. 본 발명은 혈장 cfDNA 고처리량 메틸화 서열 분석을 기반으로 cfDNA 메틸화 마커의 메틸화 수준과 췌장암 사이의 관계에 대한 진단 모델을 제공한다. 이 모델은 비침습적이고 안전하며 편리한 검출, 높은 처리량 및 높은 검출 특이성의 장점을 가지고 있다. 본 발명에서 얻은 최적의 시퀀싱을 바탕으로 우수한 검출 효과를 얻으면서 검출 비용을 효과적으로 제어할 수 있다.
본 출원은 췌장암의 특성이 20kb 상류 또는 하류 내의 다음 유전자 또는 서열로부터 선택된 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50개 유전자의 메틸화 수준과 관련이 있음을 발견했다: DMRTA2, FOXD3, TBX15, BCAN, TRIM58, SIX3, VAX2 , EMX1, LBX2, TLX2, POU3F3, TBR1, EVX2, HOXD12, HOXD8, HOXD4, TOPAZ1, SHOX2, DRD5, RPL9, HOPX, SFRP2, IRX4, TBX18, OLIG3, ULBP1, HOXA13, TBX20, IKZF1, INSIG1, SOX7, EBF2, MOS, MKX, KCNA6, SYT10, AGAP2, TBX3, CCNA1, ZIC2, CLEC14A, OTX2, C14orf39, BNC1, AHSP, ZFHX3, LHX1, TIMP2, ZNF750, SIM2. 하나 이상의 실시양태에서, 췌장암의 특성은 다음 조합 중 임의의 것으로부터 선택된 유전자 서열의 메틸화 수준과 관련된다: (1) LBX2, TBR1, EVX2, SFRP2, SYT10, CCNA1, ZFHX3; (2) TRIM58, HOXD4, INSIG1, SYT10, CCNA1, ZIC2, CLEC14A; (3) EMX1, POU3F3, TOPAZ1, ZIC2, OTX2, AHSP, TIMP2; (4) EMX1, EVX2, RPL9, SFRP2, HOXA13, SYT10, CLEC14A; (5) TBX15, EMX1, LBX2, OLIG3, SYT10, AGAP2, TBX3; (6) TRIM58, VAX2, EMX1, HOXD4, ZIC2, CLEC14A, LHX1; (7) POU3F3, HOXD8, RPL9, TBX18, SYT10, TBX3, CLEC14A; (8) TRIM58, EMX1, TLX2, EVX2, HOXD4, HOXD4, IRX4; (9) SIX3, POU3F3, TOPAZ1, RPL9, SFRP2, CLEC14A, BNC1; (10) DMRTA2, HOXD4, IRX4, INSIG1, MOS, CLEC14A, CLEC14A. 본 발명은 상기 언급된 유전자의 하나 이상의 CpG 또는 이의 단편을 함유하는 핵산 분자를 제공한다.본 출원은 췌장암과 췌장염(만성 췌장염과 같은)의 구별이 다음 유전자 또는 그 상류 또는 하류 20kb 내의 서열로부터 선택된 1, 2, 3개의 유전자의 메틸화 수준과 관련이 있음을 발견했다: SIX3, TLX2, CILP2.
본 발명에서 용어 "유전자"는 게놈 상의 관심 유전자의 코딩 서열 및 비코딩 서열을 모두 포함한다. 상기 비코딩 서열에는 인트론, 프로모터, 조절 요소 또는 서열 등이 포함된다.
추가로, 췌장암의 특성은 다음 중 어느 하나 또는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55개 세그먼트 또는 전체 56개 세그먼트의 메틸화 수준과 관련된다: DMRTA2 유전자 영역의 서열번호 1, FOXD3 유전자 영역의 서열번호 2, TBX15 유전자 영역의 서열번호 3, BCAN 유전자 영역의 서열번호 4, TRIM58 유전자 영역의 서열번호 5, SIX3 유전자 영역의 서열번호 6, VAX2 유전자 영역의 서열번호 7, EMX1 유전자 영역의 서열번호 8, LBX2 유전자 영역의 서열번호 9, TLX2 유전자 영역의 서열번호 10, POU3F3 유전자 영역의 서열번호 11 및 서열번호 12, TBR1 유전자 영역의 서열번호 13, EVX2 유전자 영역의 서열번호 14 및 서열번호 15, HOXD12 유전자 영역의 서열번호 16, HOXD8 유전자 영역의 서열번호 17, HOXD4 유전자 영역의 서열번호 18 및 서열번호 19, TOPAZ1 유전자 영역의 서열번호 20, SHOX2 유전자 영역의 서열번호 21, DRD5 유전자 영역의 서열번호 22, RPL9 유전자 영역의 서열번호 23 및 서열번호 24, HOPX 유전자 영역의 서열번호 25, SFRP2 유전자 영역의 서열번호 26, IRX4 유전자 영역의 서열번호 27, TBX18 유전자 영역의 서열번호 28, OLIG3 유전자 영역의 서열번호 29, ULBP1 유전자 영역의 서열번호 30, HOXA13 유전자 영역의 서열번호 31, TBX20 유전자 영역의 서열번호 32, IKZF1 유전자 영역의 서열번호 33, INSIG1 유전자 영역의 서열번호 34, SOX7 유전자 영역의 서열번호 35, EBF2 유전자 영역의 서열번호 36, MOS 유전자 영역의 서열번호 37, MKX 유전자 영역의 서열번호 38, KCNA6 유전자 영역의 서열번호 39, SYT10 유전자 영역의 서열번호 40, AGAP2 유전자 영역의 서열번호 41, TBX3 유전자 영역의 서열번호 42, CCNA1 유전자 영역의 서열번호 43, ZIC2 유전자 영역의 서열번호 44 및 서열번호 45, CLEC14A 유전자 영역의 서열번호 46 및 서열번호 47, OTX2 유전자 영역의 서열번호, 유전자 영역의 서열번호, 유전자 영역의 서열번호, 유전자 영역의 서열번호 48, C14orf39 유전자 영역의 서열번호 49, BNC1 유전자 영역의 서열번호 50, AHSP 유전자 영역의 서열번호 51, ZFHX3 유전자 영역의 서열번호 52, LHX1 유전자 영역의 서열번호 53, TIMP2 유전자 영역의 서열번호 54, ZNF750 유전자 영역의 서열번호 55, 유전자 영역의 서열번호, SIM2 유전자 영역의 서열번호 56.
일부 실시양태에서, 상기 췌장암의 특성은 임의의 다음 조합 또는 그의 상보적 서열로부터 선택된 서열의 메틸화 수준과 관련된다: (1) 서열번호 9, 서열번호 13, 서열번호 14, 서열번호 26, 서열번호 40, 서열번호 43, 서열번호 52, (2) 서열번호 5, 서열번호 18, 서열번호 34, 서열번호 40, 서열번호 43, 서열번호 45, 서열번호 46, (3) 서열번호 8, 서열번호 11, 서열번호 20, 서열번호 44, 서열번호 48, 서열번호 51, 서열번호 54, (4) 서열번호 8, 서열번호 14, 서열번호 24, 서열번호 26, 서열번호 31, 서열번호 40, 서열번호 46, (5) 서열번호 3, 서열번호 8, 서열번호 9, 서열번호 29, 서열번호 40, 서열번호 41, 서열번호 42, (6) 서열번호 5, 서열번호 7, 서열번호 8, 서열번호 19, 서열번호 44, 서열번호 47, 서열번호 53, (7) 서열번호 12, 서열번호 17, 서열번호 24, 서열번호 28, 서열번호 40, 서열번호 42, 서열번호 47, (8) 서열번호 5, 서열번호 8, 서열번호 10, 서열번호 14, 서열번호 18, 서열번호 19, 서열번호 27, (9) 서열번호 6, 서열번호 12, 서열번호 20, 서열번호 24, 서열번호 26, 서열번호 47, 서열번호 50, (10) 서열번호 1, 서열번호 19, 서열번호 27, 서열번호 34, 서열번호 37, 서열번호 46, 서열번호 47.
본 명세서에 기재된 "췌장암 관련 서열"은 상기 언급한 50개의 유전자, 그 상류 또는 하류 20kb 내의 서열, 상기 언급된 56개의 서열(SEQ ID NO:1-56) 또는 그의 상보적 서열, 하위 영역 및/또는 처리된 서열을 포함한다.
인간 염색체에서 위에서 언급한 56개 서열의 위치는 다음과 같다: 서열번호 1로 표시되는 chr1의 50884507-50885207bps, 서열번호 2로 표시되는 chr1의 63788611-63789152bps, 서열번호 3로 표시되는 chr1의 119522143-119522719bps, 서열번호 4로 표시되는 chr1의 156611710-156612211bps, 서열번호 5로 표시되는 chr1의 248020391-248020979bps, 서열번호 6로 표시되는 chr2의 45028796-45029378bps, 서열번호 7로 표시되는 chr2의 71115731-71116272bps, 서열번호 8로 표시되는 chr2의 73147334-73147835bps, 서열번호 9로 표시되는 chr2의 74726401-74726922bps, 서열번호 10로 표시되는 chr2의 74742861-74743362bps, 서열번호11로 표시되는 chr2의 105480130-105480830bps, 서열번호 12로 표시되는 chr2의 105480157-105480659bps, 서열번호 13로 표시되는 chr2의 162280233-162280736bps, 서열번호 14로 표시되는 chr2의 176945095-176945601bps, 서열번호 15로 표시되는 chr2의 176945320-176945821bps, 서열번호 16로 표시되는 chr2의 176964629-176965209bps, 서열번호 17로 표시되는 chr2의 176994514-176995015bps, 서열번호 18로 표시되는 chr2의 177016987-177017501bps, 서열번호 19로 표시되는 chr2의 177024355-177024866bps, 서열번호 20로 표시되는 chr3의 44063336-44063893bps, 서열번호 21로 표시되는 chr3의 157812057-157812604bps, 서열번호 22로 표시되는 chr4의 9783025-9783527bps, 서열번호 23로 표시되는 chr4의 39448278-39448779bps, 서열번호 24로 표시되는 chr4의 39448327-39448879bps, 서열번호 25로 표시되는 chr4의 57521127-57521736bps, 서열번호 26로 표시되는 chr4의 154709362-154709867bps, 서열번호 27로 표시되는 chr5의 1876136-1876645bps, 서열번호 28로 표시되는 chr6의 85476916-85477417bps, 서열번호 29로 표시되는 chr6의 137814499-137815053bps, 서열번호 30로 표시되는 chr6의 150285594-150286095bps, 서열번호 31로 표시되는 chr7의 27244522-27245037bps, 서열번호 32로 표시되는 chr7의 35293435-35293950bps, 서열번호 33로 표시되는 chr7의 50343543-50344243bps, 서열번호 34로 표시되는 chr7의 155167312-155167828bps, 서열번호 35로 표시되는 chr8의 10588692-10589253bps, 서열번호 36로 표시되는 chr8의 25907648-25908150bps, SEQ ID NO37로 표시되는 chr8의 57069450-57070150bps, 서열번호 38로 표시되는 chr10의 28034404-28034908bps, 서열번호 39로 표시되는 chr12의 4918941-4919489bps, 서열번호 40로 표시되는 chr12의 33592612-33593117bps, 서열번호 41로 표시되는 chr12의 58131095-58131654bps, 서열번호 42로 표시되는 chr12의 115124763-115125348bps, 서열번호 43로 표시되는 chr13의 37005444-37005945bps, 서열번호 44로 표시되는 chr13의 100649468 - 100649995bps, 서열번호 45로 표시되는 chr13의 100649513-100650027bps, 서열번호 46로 표시되는 chr14의 38724419-38724935bps, 서열번호 47로 표시되는 chr14의 38724602-38725108bps, 서열번호 48로 표시되는 chr14의 57275646-57276162bps, 서열번호 49로 표시되는 chr14의 60952384-60952933bps, 서열번호 50로 표시되는 chr15의 83952059-83952595bps, 서열번호 51로 표시되는 chr16의 31579970-31580561bps, 서열번호 52로 표시되는 chr16의 73096773-73097473bps, 서열번호 53로 표시되는 chr17의 35299694-35300224bps, 서열번호 54로 표시되는 chr17의 76929623-76930176bps, 서열번호 55로 표시되는 chr17의 80846617-80847210bps, 서열번호 56로 표시되는 chr21의 38081247-38081752bps. 본 명세서에서, 상기 서열의 염기 및 메틸화 부위는 참조 게놈 HG19에 상응하여 번호가 매겨져 있다.
하나 이상의 실시양태에서, 본원에 기재된 핵산 분자는 DMRTA2, FOXD3, TBX15, BCAN, TRIM58, SIX3, VAX2 , EMX1, LBX2, TLX2, POU3F3, TBR1, EVX2, HOXD12, HOXD8, HOXD4, TOPAZ1, SHOX2, DRD5, RPL9, HOPX, SFRP2, IRX4, TBX18, OLIG3, ULBP1, HOXA13, TBX20, IKZF1, INSIG1, SOX7, EBF2, MOS, MKX, KCNA6, SYT10, AGAP2, TBX3, CCNA1, ZIC2, CLEC14A, OTX2, C14orf39, BNC1, AHSP, ZFHX3, LHX1, TIMP2, ZNF750, SIM2로부터 선택된 하나 이상의 유전자의 단편이고; 상기 단편의 길이는 1bp-1kb, 바람직하게는 1bp-700bp이고; 상기 단편은 염색체 영역에서 상응하는 유전자의 하나 이상의 메틸화 부위를 포함한다. 본 명세서에 기술된 유전자 또는 이의 단편의 메틸화 부위에는 다음이 포함되나 이에 제한되지는 않는다: 1번 염색체의 50884514, 50884531, 50884533, 50884541, 50884544, 50884547, 50884550, 50884552, 50884566, 50884582, 50884586, 50884589, 50884591, 50884598, 50884606, 50884610, 50884612, 50884615, 50884621, 50884633, 50884646, 50884649, 50884658, 50884662, 50884673, 50884682, 50884691, 50884699, 50884702, 50884724, 50884732, 50884735, 50884742, 50884751, 50884754, 50884774, 50884777, 50884780, 50884783, 50884786, 50884789, 50884792, 50884795, 50884798, 50884801, 50884804, 50884807, 50884809, 50884820, 50884822, 50884825, 50884849, 50884852, 50884868, 50884871, 50884885, 50884889, 50884902, 50884924, 50884939, 50884942, 50884945, 50884948, 50884975, 50884980, 50884983, 50884999, 50885001, 63788628, 63788660, 63788672, 63788685, 63788689, 63788703, 63788706, 63788709, 63788721, 63788741, 63788744, 63788747, 63788753, 63788759, 63788768, 63788776, 63788785, 63788789, 63788795, 63788804, 63788816, 63788822, 63788825, 63788828, 63788849, 63788852, 63788861, 63788870, 63788872, 63788878, 63788881, 63788889, 63788897, 63788902, 63788906, 63788917, 63788920, 63788933, 63788947, 63788983, 63788987, 63788993, 63788999, 63789004, 63789011, 63789014, 63789020, 63789022, 63789025, 63789031, 63789035, 63789047, 63789056, 63789059, 63789068, 63789071, 63789073, 63789077, 63789080, 63789083, 63789092, 63789094, 63789101, 63789106, 63789109, 63789124, 119522172, 119522188, 119522190, 119522233, 119522239, 119522313, 119522368, 119522386, 119522393, 119522409, 119522425, 119522427, 119522436, 119522440, 119522444, 119522446, 119522449, 119522451, 119522456, 119522459, 119522464, 119522469, 119522474, 119522486, 119522488, 119522500, 119522502, 119522516, 119522529, 119522537, 119522548, 119522550, 119522559, 119522563, 119522566, 119522571, 119522577, 119522579, 119522582, 119522594, 119522599, 119522607, 119522615, 119522621, 119522629, 119522631, 119522637, 119522665, 119522673, 156611713, 156611720, 156611733, 156611737, 156611749, 156611752, 156611761, 156611767, 156611784, 156611791, 156611797, 156611802, 156611811, 156611813, 156611819, 156611830, 156611836, 156611842, 156611851, 156611862, 156611890, 156611893, 156611902, 156611905, 156611915, 156611926, 156611945, 156611949, 156611951, 156611960, 156611963, 156611994, 156612002, 156612015, 156612024, 156612034, 156612042, 156612044, 156612079, 156612087, 156612090, 156612094, 156612097, 156612105, 156612140, 156612147, 156612166, 156612188, 156612191, 156612204, 156612209, 248020399, 248020410, 248020436, 248020447, 248020450, 248020453, 248020470, 248020495, 248020497, 248020507, 248020512, 248020516, 248020520, 248020526, 248020536, 248020543, 248020559, 248020562, 248020566, 248020573, 248020579, 248020581, 248020589, 248020591, 248020598, 248020625, 248020632, 248020641, 248020671, 248020680, 248020688, 248020692, 248020695, 248020697, 248020704, 248020707, 248020713, 248020721, 248020729, 248020741, 248020748, 248020756, 248020765, 248020775, 248020791, 248020795, 248020798, 248020812, 248020814, 248020821, 248020826, 248020828, 248020831, 248020836, 248020838, 248020840, 248020845, 248020848, 248020861, 248020869, 248020878, 248020883, 248020886, 248020902, 248020905, 248020908, 248020914, 248020925, 248020930, 248020934, 248020937, 248020940, 248020953, 248020956, 248020975; 2번 염색체의 45028802, 45028816, 45028832, 45028839, 45028956, 45028961, 45028965, 45028973, 45029004, 45029017, 45029035, 45029046, 45029057, 45029060, 45029063, 45029065, 45029071, 45029106, 45029112, 45029117, 45029128, 45029146, 45029176, 45029179, 45029184, 45029189, 45029192, 45029195, 45029218, 45029226, 45029228, 45029231, 45029235, 45029263, 45029273, 45029285, 45029288, 45029295, 45029307, 45029317, 45029353, 45029357, 71115760, 71115787, 71115789, 71115837, 71115928, 71115936, 71115948, 71115962, 71115968, 71115978, 71115981, 71115983, 71115985, 71115987, 71115994, 71116000, 71116022, 71116024, 71116030, 71116036, 71116047, 71116054, 71116067, 71116096, 71116101, 71116103, 71116107, 71116117, 71116119, 71116130, 71116137, 71116141, 71116152, 71116154, 71116158, 71116174, 71116188, 71116190, 71116194, 71116203, 71116215, 71116226, 71116233, 71116242, 71116257, 71116259, 71116261, 71116268, 71116271, 73147340, 73147350, 73147364, 73147369, 73147382, 73147405, 73147408, 73147432, 73147438, 73147444, 73147481, 73147491, 73147493, 73147523, 73147529, 73147537, 73147559, 73147571, 73147582, 73147584, 73147592, 73147595, 73147598, 73147607, 73147613, 73147620, 73147623, 73147631, 73147644, 73147668, 73147673, 73147678, 73147687, 73147690, 73147693, 73147695, 73147710, 73147720, 73147738, 73147755, 73147767, 73147771, 73147789, 73147798, 73147803, 73147811, 73147814, 73147816, 73147822, 73147825, 73147827, 73147829, 74726438, 74726440, 74726449, 74726478, 74726480, 74726482, 74726484, 74726493, 74726495, 74726524, 74726526, 74726533, 74726536, 74726539, 74726548, 74726554, 74726569, 74726572, 74726585, 74726597, 74726599, 74726616, 74726633, 74726642, 74726649, 74726651, 74726656, 74726668, 74726672, 74726682, 74726687, 74726695, 74726700, 74726710, 74726716, 74726734, 74726746, 74726760, 74726766, 74726772, 74726784, 74726791, 74726809, 74726828, 74726833, 74726835, 74726861, 74726892, 74726894, 74726908, 74742879, 74742882, 74742891, 74742913, 74742922, 74742925, 74742942, 74742950, 74742953, 74742967, 74742981, 74742984, 74742996, 74743004, 74743006, 74743009, 74743011, 74743015, 74743021, 74743035, 74743056, 74743059, 74743061, 74743064, 74743068, 74743073, 74743082, 74743084, 74743101, 74743108, 74743111, 74743119, 74743121, 74743127, 74743131, 74743137, 74743139, 74743141, 74743146, 74743172, 74743174, 74743182, 74743186, 74743191, 74743195, 74743198, 74743207, 74743231, 74743234, 74743241, 74743243, 74743268, 74743295, 74743301, 74743306, 74743318, 74743321, 74743325, 74743329, 74743333, 74743336, 74743343, 74743346, 74743352, 74743357, 105480130, 105480161, 105480179, 105480198, 105480207, 105480210, 105480212, 105480226, 105480254, 105480258, 105480272, 105480291, 105480337, 105480360, 105480377, 105480383, 105480387, 105480390, 105480407, 105480409, 105480412, 105480424, 105480426, 105480429, 105480433, 105480438, 105480461, 105480464, 105480475, 105480481, 105480488, 105480490, 105480503, 105480546, 105480556, 105480571, 105480577, 105480581, 105480604, 105480621, 105480623, 105480630, 105480634, 105480637, 162280237, 162280239, 162280242, 162280245, 162280249, 162280257, 162280263, 162280289, 162280293, 162280297, 162280306, 162280309, 162280314, 162280317, 162280327, 162280331, 162280341, 162280351, 162280362, 162280368, 162280393, 162280396, 162280398, 162280402, 162280405, 162280407, 162280409, 162280417, 162280420, 162280438, 162280447, 162280459, 162280462, 162280466, 162280470, 162280473, 162280479, 1622804 162280486, 162280489, 162280492, 162280498, 162280519, 162280534, 162280539, 162280548, 162280561, 162280570, 162280575, 162280585, 162280598, 162280604, 162280611, 162280614, 162280618, 162280623, 162280627, 162280633, 162280641, 162280647, 162280657, 162280673, 162280681, 162280693, 162280708, 162280728, 176945102, 176945119, 176945122, 176945132, 176945134, 176945137, 176945141, 176945144, 176945147, 176945150, 176945159, 176945165, 176945170, 176945177, 176945179, 176945186, 176945188, 176945198, 176945200, 176945213, 176945215, 176945218, 176945222, 176945224, 176945250, 176945270, 176945274, 176945288, 176945296, 176945298, 176945316, 176945329, 176945336, 176945339, 176945345, 176945347, 176945351, 176945354, 176945356, 176945372, 176945374, 176945378, 176945381, 176945384, 176945387, 176945392, 176945398, 176945402, 176945417, 176945422, 176945426, 176945452, 176945458, 176945462, 176945464, 176945468, 176945497, 176945507, 176945526, 176945532, 176945547, 176945550, 176945570, 176945580, 176945582, 176945585, 176945604, 176945609, 176945647, 176945679, 176945695, 176945732, 176945747, 176945750, 176945761, 176945770, 176945789, 176945791, 176945795, 176964640, 176964642, 176964663, 176964665, 176964667, 176964670, 176964672, 176964685, 176964690, 176964694, 176964703, 176964709, 176964711, 176964720, 176964724, 176964736, 176964739, 176964747, 176964769, 176964778, 176964805, 176964811, 176964834, 176964838, 176964843, 176964847, 176964863, 176964865, 176964869, 176964875, 176964879, 176964886, 176964892, 176964930, 176964946, 176964959, 176964966, 176964969, 176964978, 176965003, 176965021, 176965035, 176965062, 176965065, 176965069, 176965085, 176965099, 176965102, 176965109, 176965125, 176965130, 176965140, 176965186, 176965196, 176994516, 176994525, 176994528, 176994531, 176994537, 176994546, 176994557, 176994559, 176994568, 176994570, 176994583, 176994586, 176994623, 176994637, 176994654, 176994661, 176994665, 176994682, 176994688, 176994728, 176994738, 176994747, 176994750, 176994753, 176994764, 176994768, 176994773, 176994778, 176994780, 176994783, 176994793, 176994801, 176994804, 176994807, 176994809, 176994811, 176994822, 176994830, 176994832, 176994837, 176994839, 176994848, 176994851, 176994853, 176994859, 176994864, 176994867, 176994871, 176994880, 176994890, 176994905, 176994909, 176994911, 176994931, 176994934, 176994936, 176994938, 176994942, 176994944, 176994948, 176994952, 176994961, 176994964, 176994971, 176994974, 176994980, 176994983, 176994986, 176994996, 176995011, 176995013, 177017050, 177017079, 177017124, 177017173, 177017179, 177017182, 177017193, 177017211, 177017223, 177017225, 177017227, 177017237, 177017239, 177017246, 177017251, 177017253, 177017267, 177017270, 177017276, 177017296, 177017300, 177017331, 177017352, 177017368, 177017374, 177017378, 177017389, 177017446, 177017449, 177017452, 177017463, 177017483, 177017488, 177024359, 177024367, 177024415, 177024502, 177024514, 177024528, 177024531, 177024540, 177024548, 177024550, 177024558, 177024582, 177024605, 177024616, 177024619, 177024634, 177024642, 177024655, 177024698, 177024709, 177024714, 177024723, 177024725, 177024748, 177024756, 177024769, 177024771, 177024776, 177024783, 177024800, 177024836, 177024838, 177024856, 177024861; 3번 염색체의 44063356, 44063391, 44063404, 44063411, 44063417, 44063423, 44063450, 44063516, 44063541, 44063544, 44063559, 44063565, 44063567, 44063574, 44063586, 44063593, 44063602, 44063606, 44063620, 44063633, 44063638, 44063643, 44063649, 44063657, 44063660, 44063662, 44063682, 44063686, 44063719, 44063745, 44063756, 44063768, 44063779, 44063807, 44063821, 44063832, 44063836, 44063858, 44063877, 157812071, 157812085, 157812092, 157812117, 157812131, 157812152, 157812170, 157812173, 157812175, 157812184, 157812206, 157812212, 157812226, 157812256, 157812259, 157812275, 157812277, 157812287, 157812294, 157812296, 157812302, 157812305, 157812307, 157812312, 157812319, 157812321, 157812329, 157812331, 157812334, 157812354, 157812358, 157812369, 157812380, 157812383, 157812385, 157812404, 157812411, 157812414, 157812420, 157812437, 157812442, 157812457, 157812468, 157812470, 157812475, 157812498, 157812542, 157812548; 4번 염색체의 9783036, 9783050, 9783059, 9783075, 9783080, 9783097, 9783105, 9783112, 9783120, 9783126, 9783142, 9783144, 9783153, 9783160, 9783166, 9783185, 9783192, 9783196, 9783198, 9783206, 9783213, 9783218, 9783220, 9783233, 9783244, 9783246, 9783252, 9783271, 9783275, 9783277, 9783304, 9783322, 9783327, 9783342, 9783348, 9783354, 9783358, 9783361, 9783363, 9783376, 9783398, 9783409, 9783425, 9783427, 9783442, 9783449, 9783467, 9783492, 9783494, 9783496, 9783501, 9783508, 9783511, 39448284, 39448302, 39448320, 39448323, 39448340, 39448343, 39448347, 39448365, 39448422, 39448432, 39448453, 39448464, 39448473, 39448478, 39448481, 39448503, 39448516, 39448524, 39448528, 39448549, 39448551, 39448557, 39448562, 39448568, 39448575, 39448577, 39448586, 39448593, 39448613, 39448625, 39448629, 39448633, 39448647, 39448653, 39448662, 39448665, 39448670, 39448683, 39448695, 39448697, 39448729, 39448732, 39448748, 39448757, 39448759, 39448767, 39448773, 39448796, 39448800, 39448809, 39448811, 39448836, 39448845, 39448857, 39448864, 39448869, 39448874, 57521138, 57521209, 57521237, 57521297, 57521304, 57521310, 57521336, 57521348, 57521377, 57521397, 57521411, 57521419, 57521426, 57521442, 57521449, 57521486, 57521506, 57521518, 57521537, 57521545, 57521581, 57521603, 57521622, 57521631, 57521652, 57521657, 57521665, 57521680, 57521687, 57521701, 57521716, 57521725, 57521733, 154709378, 154709414, 154709425, 154709441, 154709492, 154709513, 154709522, 154709540, 154709557, 154709561, 154709576, 154709591, 154709597, 154709607, 154709612, 154709617, 154709633, 154709640, 154709663, 154709675, 154709684, 154709690, 154709697, 154709721, 154709745, 154709756, 154709759, 154709789, 154709812, 154709828, 154709834; 5번 염색체의 1876139, 1876168, 1876200, 1876208, 1876213, 1876215, 1876286, 1876290, 1876298, 1876308, 1876311, 1876337, 1876339, 1876347, 1876354, 1876368, 1876372, 1876374, 1876386, 1876395, 1876397, 1876399, 1876403, 1876420, 1876424, 1876432, 1876436, 1876449, 1876456, 1876459, 1876463, 1876483, 1876498, 1876525, 1876527, 1876557, 1876563, 1876570, 1876576, 1876605, 1876630, 1876634, 1876638; 6번 염색체의 85476921, 85476930, 85476974, 85477014, 85477032, 85477035, 85477070, 85477083, 85477106, 85477124, 85477151, 85477153, 85477166, 85477175, 85477186, 85477217, 85477228, 85477230, 85477236, 85477245, 85477249, 85477251, 85477253, 85477261, 85477283, 137814512, 137814516, 137814523, 137814548, 137814558, 137814561, 137814564, 137814567, 137814620, 137814636, 137814638, 137814642, 137814645, 137814654, 137814666, 137814679, 137814689, 137814695, 137814707, 137814710, 137814717, 137814723, 137814728, 137814744, 137814746, 137814749, 137814768, 137814776, 137814786, 137814788, 137814792, 137814794, 137814803, 137814807, 137814818, 137814824, 137814837, 137814860, 137814920, 137814935, 137814952, 137814957, 137814960, 137814969, 137814971, 137814986, 137814988, 137814995, 137815016, 137815024, 137815030, 137815034, 137815036, 137815040, 150285620, 150285634, 150285641, 150285652, 150285659, 150285661, 150285670, 150285677, 150285688, 150285695, 150285697, 150285706, 150285713, 150285715, 150285724, 150285731, 150285733, 150285742, 150285760, 150285767, 150285769, 150285775, 150285778, 150285788, 150285813, 150285815, 150285826, 150285829, 150285844, 150285860, 150285887, 150285890, 150285892, 150285901, 150285908, 150285910, 150285926, 150285928, 150285937, 150285944, 150285956, 150285963, 150285966, 150285974, 150285981, 150285983, 150285992, 150285999, 150286001, 150286010, 150286017, 150286019, 150286028, 150286035, 150286038, 150286046, 150286055, 150286063, 150286073, 150286082, 150286089, 150286091; 7번 염색체의 27244531, 27244533, 27244537, 27244555, 27244564, 27244578, 27244603, 27244609, 27244612, 27244619, 27244621, 27244627, 27244631, 27244657, 27244673, 27244702, 27244704, 27244714, 27244723, 27244755, 27244772, 27244780, 27244787, 27244789, 27244798, 27244800, 27244810, 27244833, 27244856, 27244869, 27244874, 27244881, 27244885, 27244887, 27244892, 27244897, 27244907, 27244911, 27244917, 27244920, 27244931, 27244948, 27244951, 27244980, 27244982, 27244986, 27245014, 27245018, 35293441, 35293451, 35293470, 35293479, 35293482, 35293488, 35293492, 35293497, 35293502, 35293506, 35293514, 35293531, 35293537, 35293543, 35293588, 35293590, 35293621, 35293652, 35293656, 35293658, 35293670, 35293676, 35293685, 35293687, 35293690, 35293692, 35293700, 35293717, 35293721, 35293731, 35293747, 35293750, 35293753, 35293759, 35293767, 35293780, 35293783, 35293790, 35293796, 35293809, 35293812, 35293815, 35293821, 35293827, 35293829, 35293834, 35293838, 35293840, 35293847, 35293849, 35293860, 35293863, 35293867, 35293869, 35293879, 35293884, 35293892, 35293940, 50343545, 50343548, 50343552, 50343555, 50343562, 50343566, 50343572, 50343574, 50343577, 50343579, 50343587, 50343603, 50343605, 50343608, 50343611, 50343624, 50343628, 50343630, 50343635, 50343637, 50343639, 50343648, 50343651, 50343654, 50343656, 50343659, 50343663, 50343669, 50343672, 50343674, 50343678, 50343682, 50343693, 50343696, 50343699, 50343702, 50343714, 50343719, 50343725, 50343728, 50343731, 50343736, 50343739, 50343758, 50343765, 50343768, 50343770, 50343785, 50343789, 50343791, 50343805, 50343813, 50343822, 50343824, 50343826, 50343829, 50343831, 50343833, 50343838, 50343847, 50343850, 50343853, 50343858, 50343864, 50343869, 50343872, 50343883, 50343890, 50343897, 50343907, 50343909, 50343914, 50343926, 50343934, 50343939, 50343946, 50343950, 50343959, 50343961, 50343963, 50343969, 50343974, 50343980, 50343990, 50344001, 50344007, 50344011, 50344028, 50344041, 155167320, 155167333, 155167340, 155167343, 155167345, 155167347, 155167350, 155167357, 155167379, 155167382, 155167394, 155167401, 155167423, 155167430, 155167467, 155167478, 155167480, 155167486, 155167499, 155167505, 155167507, 155167511, 155167513, 155167516, 155167518, 155167528, 155167543, 155167552, 155167555, 155167560, 155167562, 155167568, 155167570, 155167578, 155167602, 155167608, 155167611, 155167617, 155167662, 155167702, 155167707, 155167716, 155167718, 155167739, 155167750, 155167753, 155167757, 155167759, 155167771, 155167773, 155167791, 155167801, 155167803, 155167805, 155167813, 155167819, 155167821, 155167827; 8번 염색체의 10588729, 10588742, 10588820, 10588833, 10588841, 10588851, 10588857, 10588865, 10588867, 10588883, 10588888, 10588895, 10588938, 10588942, 10588946, 10588948, 10588951, 10588959, 10588992, 10589003, 10589007, 10589009, 10589016, 10589034, 10589060, 10589062, 10589076, 10589079, 10589093, 10589152, 10589193, 10589206, 10589241, 25907660, 25907702, 25907709, 25907724, 25907747, 25907752, 25907754, 25907757, 25907769, 25907796, 25907800, 25907814, 25907818, 25907821, 25907824, 25907838, 25907848, 25907866, 25907874, 25907880, 25907884, 25907893, 25907898, 25907900, 25907902, 25907906, 25907918, 25907947, 25907976, 25908055, 25908057, 25908064, 25908071, 25908098, 25908101, 57069480, 57069544, 57069569, 57069606, 57069631, 57069648, 57069688, 57069698, 57069709, 57069712, 57069722, 57069735, 57069739, 57069755, 57069764, 57069773, 57069775, 57069784, 57069786, 57069791, 57069793, 57069800, 57069812, 57069816, 57069823, 57069825, 57069827, 57069839, 57069842, 57069847, 57069851, 57069853, 57069884, 57069889, 57069894, 57069907, 57069914, 57069919, 57069931, 57069940, 57069948, 57069958, 57069968, 57069973, 57069978, 57070013, 57070035, 57070038, 57070042, 57070046, 57070066, 57070079, 57070087, 57070091, 57070126, 57070143; 10번 염색체의 28034412, 28034415, 28034418, 28034442, 28034444, 28034467, 28034469, 28034494, 28034501, 28034505, 28034545, 28034556, 28034559, 28034568, 28034582, 28034591, 28034596, 28034599, 28034605, 28034616, 28034619, 28034622, 28034624, 28034645, 28034651, 28034654, 28034658, 28034669, 28034682, 28034687, 28034697, 28034711, 28034714, 28034727, 28034729, 28034739, 28034741, 28034751, 28034757, 28034760, 28034763, 28034768, 28034787, 28034790, 28034792, 28034794, 28034797, 28034801, 28034816, 28034843, 28034853, 28034856, 28034867, 28034871, 28034873, 28034882, 28034888, 28034892, 28034907; 12번 염색체의 4918962, 4918966, 4918968, 4918975, 4918982, 4919001, 4919056, 4919065, 4919079, 4919081, 4919086, 4919095, 4919097, 4919118, 4919124, 4919138, 4919145, 4919147, 4919164, 4919170, 4919173, 4919184, 4919191, 4919199, 4919215, 4919230, 4919236, 4919239, 4919242, 4919253, 4919260, 4919281, 4919293, 4919300, 4919303, 4919309, 4919327, 4919331, 4919351, 4919358, 4919376, 4919386, 4919395, 4919401, 4919408, 4919421, 4919424, 4919430, 4919438, 4919453, 4919465, 4919469, 4919475, 4919486, 33592615, 33592629, 33592635, 33592642, 33592659, 33592661, 33592663, 33592674, 33592681, 33592683, 33592692, 33592704, 33592707, 33592709, 33592711, 33592715, 33592720, 33592725, 33592727, 33592744, 33592774, 33592798, 33592803, 33592811, 33592831, 33592848, 33592859, 33592862, 33592865, 33592867, 33592875, 33592882, 33592885, 33592887, 33592891, 33592905, 33592908, 33592913, 33592915, 33592923, 33592931, 33592933, 33592953, 33592955, 33592977, 33592981, 33592986, 33592989, 33592998, 33593004, 33593017, 33593035, 33593049, 33593090, 33593093, 58131100, 58131102, 58131111, 58131133, 58131154, 58131168, 58131175, 58131181, 58131224, 58131242, 58131261, 58131277, 58131300, 58131303, 58131306, 58131309, 58131312, 58131318, 58131321, 58131331, 58131345, 58131348, 58131384, 58131390, 58131404, 58131412, 58131414, 58131426, 58131429, 58131445, 58131453, 58131475, 58131478, 58131487, 58131503, 58131510, 58131523, 58131546, 58131549, 58131553, 58131557, 58131564, 58131571, 58131576, 58131586, 58131605, 58131608, 58131624, 58131642, 115124768, 115124773, 115124782, 115124811, 115124838, 115124853, 115124871, 115124874, 115124894, 115124904, 115124924, 115124930, 115124933, 115124935, 115124946, 115124970, 115124973, 115124981, 115124999, 115125013, 115125034, 115125053, 115125060, 115125098, 115125107, 115125114, 115125121, 115125131, 115125141, 115125151, 115125177, 115125192, 115125225, 115125305, 115125335; 13번 염색체의 37005452, 37005489, 37005501, 37005520, 37005551, 37005553, 37005557, 37005562, 37005566, 37005570, 37005582, 37005596, 37005608, 37005629, 37005633, 37005635, 37005673, 37005678, 37005686, 37005694, 37005704, 37005706, 37005721, 37005732, 37005738, 37005741, 37005745, 37005773, 37005778, 37005794, 37005801, 37005805, 37005814, 37005816, 37005821, 37005833, 37005835, 37005844, 37005855, 37005857, 37005878, 37005881, 37005883, 37005892, 37005899, 37005909, 37005924, 37005929, 37005934, 37005939, 37005941, 100649486, 100649489, 100649519, 100649538, 100649567, 100649569, 100649577, 100649584, 100649601, 100649603, 100649605, 100649623, 100649625, 100649628, 100649648, 100649671, 100649673, 100649686, 100649689, 100649691, 100649701, 100649705, 100649715, 100649718, 100649721, 100649725, 100649731, 100649734, 100649738, 100649740, 100649745, 100649763, 100649769, 100649777, 100649785, 100649792, 100649800, 100649847, 100649886, 100649912, 100649915, 100649917, 100649941, 100649945, 100649949, 100649965, 100649975, 100649982, 100650005; 14번 염색체의 38724435, 38724459, 38724473, 38724486, 38724507, 38724511, 38724527, 38724531, 38724534, 38724540, 38724544, 38724546, 38724565, 38724578, 38724586, 38724597, 38724624, 38724627, 38724646, 38724648, 38724650, 38724669, 38724675, 38724680, 38724682, 38724685, 38724726, 38724732, 38724734, 38724746, 38724765, 38724771, 38724780, 38724796, 38724798, 38724806, 38724808, 38724810, 38724821, 38724847, 38724852, 38724858, 38724864, 38724867, 38724873, 38724896, 38724906, 38724929, 38724935, 38724945, 38724978, 38724995, 38725003, 38725005, 38725014, 38725016, 38725023, 38725026, 38725030, 38725034, 38725038, 38725048, 38725058, 38725077, 38725081, 38725088, 38725101, 57275669, 57275674, 57275677, 57275681, 57275683, 57275687, 57275690, 57275706, 57275725, 57275749, 57275752, 57275761, 57275768, 57275772, 57275778, 57275785, 57275821, 57275823, 57275827, 57275829, 57275831, 57275835, 57275852, 57275874, 57275876, 57275885, 57275896, 57275908, 57275912, 57275914, 57275924, 57275956, 57275967, 57275969, 57275971, 57275981, 57275988, 57275993, 57275995, 57276000, 57276031, 57276035, 57276039, 57276057, 57276066, 57276073, 57276090, 60952394, 60952398, 60952405, 60952418, 60952421, 60952425, 60952464, 60952468, 60952482, 60952500, 60952503, 60952505, 60952517, 60952522, 60952544, 60952550, 60952554, 60952593, 60952599, 60952615, 60952618, 60952634, 60952658, 60952683, 60952687, 60952730, 60952738, 60952755, 60952762, 60952781, 60952791, 60952799, 60952827, 60952829, 60952836, 60952839, 60952841, 60952848, 60952855, 60952857, 60952870, 60952876, 60952878, 60952887, 60952896, 60952898, 60952908, 60952919, 60952921, 60952931; 15번 염색체의 83952068, 83952081, 83952084, 83952087, 83952095, 83952105, 83952108, 83952114, 83952125, 83952135, 83952140, 83952156, 83952160, 83952162, 83952175, 83952178, 83952181, 83952184, 83952188, 83952200, 83952206, 83952209, 83952214, 83952220, 83952225, 83952229, 83952236, 83952238, 83952242, 83952266, 83952285, 83952291, 83952298, 83952309, 83952314, 83952317, 83952345, 83952352, 83952358, 83952360, 83952367, 83952406, 83952411, 83952414, 83952418, 83952420, 83952425, 83952430, 83952453, 83952464, 83952472, 83952486, 83952496, 83952498, 83952500, 83952506, 83952508, 83952527, 83952553, 83952559, 83952566, 83952570, 83952582, 83952592; 16번 염색체의 31579976, 31580071, 31580078, 31580081, 31580089, 31580100, 31580110, 31580117, 31580138, 31580150, 31580153, 31580159, 31580165, 31580220, 31580246, 31580254, 31580269, 31580287, 31580296, 31580299, 31580309, 31580311, 31580316, 31580343, 31580424, 31580496, 31580524, 31580560, 73096786, 73096842, 73096889, 73096894, 73096903, 73096914, 73096923, 73096929, 73096934, 73096943, 73096948, 73096966, 73096970, 73096979, 73097000, 73097015, 73097017, 73097019, 73097028, 73097037, 73097045, 73097057, 73097060, 73097066, 73097069, 73097078, 73097080, 73097082, 73097084, 73097108, 73097114, 73097142, 73097156, 73097183, 73097260, 73097267, 73097284, 73097296, 73097301, 73097329, 73097357, 73097364, 73097377, 73097381, 73097387, 73097470; 17번 염색체의 35299698, 35299703, 35299710, 35299719, 35299729, 35299731, 35299741, 35299746, 35299776, 35299813, 35299816, 35299822, 35299837, 35299850, 35299877, 35299885, 35299913, 35299915, 35299926, 35299928, 35299933, 35299935, 35299944, 35299946, 35299963, 35299966, 35299972, 35299974, 35299990, 35299996, 35299999, 35300006, 35300010, 35300020, 35300027, 35300036, 35300039, 35300044, 35300059, 35300068, 35300074, 35300086, 35300097, 35300109, 35300115, 35300146, 35300151, 35300163, 35300167, 35300172, 35300196, 35300202, 35300214, 35300217, 35300221, 76929645, 76929709, 76929713, 76929742, 76929769, 76929829, 76929873, 76929926, 76929982, 76930043, 76930095, 76930148, 76930169, 80846623, 80846652, 80846683, 80846709, 80846717, 80846730, 80846745, 80846763, 80846794, 80846860, 80846867, 80846886, 80846960, 80846965, 80847079, 80847092, 80847115, 80847128, 80847137, 80847153, 80847158, 80847209; 21번 염색체의 38081248, 38081253, 38081300, 38081303, 38081306, 38081321, 38081327, 38081333, 38081341, 38081344, 38081352, 38081354, 38081356, 38081363, 38081394, 38081396, 38081407, 38081421, 38081430, 38081443, 38081454, 38081461, 38081478, 38081480, 38081492, 38081497, 38081499, 38081502, 38081514, 38081517, 38081520, 38081537, 38081557, 38081563, 38081566, 38081577, 38081583, 38081586, 38081606, 38081625, 38081642, 38081665, 38081695, 38081707, 38081719, 38081725, 38081732. 본 명세서에서, 상기 메틸화 부위의 염기는 참조 게놈 HG19에 따라 번호가 매겨져 있다.
하나 이상의 실시양태에서, 췌장암과 췌장염 사이의 구별은 다음 조합 중 선택되는 임의의 유전자로부터의 서열의 메틸화 수준과 상관관계가 있다: (1) SIX3, TLX2; (2) SIX3, CILP2; (3) TLX2, CILP2; (4) SIX3, TLX2, CILP2. 본 발명은 상기 언급된 유전자의 하나 이상의 CpG 또는 이의 단편을 함유하는 핵산 분자를 제공한다.
또한, 상기 췌장암과 췌장염의 구별은 다음 중 선택되는 임의의 한 세그먼트 또는 무작위 2개 또는 3개 세그먼트 모두의 메틸화 수준과 관련된다: SIX3 유전자 영역의 서열번호 57, TLX2 유전자 영역의 서열번호 58 및 CILP2 유전자 영역의 서열번호 59.
일부 실시양태에서, 췌장암과 췌장염 사이의 구별은 (1) 서열번호 57, 서열번호 58, (2) 서열번호 57, 서열번호 59, (3) 서열번호 58, 서열번호 59, (4) 서열번호 57, 서열번호 58, 서열번호 59 또는 이의 상보적인 서열로 이루어진 군 중 어느 하나로부터 선택되는 서열의 메틸화 수준과 상관관계가 있다.
본 명세서에 기재된 "췌장암과 췌장염의 구별에 관련된 서열"은 상기 언급된 3개의 유전자, 그 상류 또는 하류 20kb 내의 서열, 상기 3개의 서열(서열번호 57-59) 또는 이들의 상보적인 서열을 포함한다.
인간 염색체에서 위에서 언급한 3개 서열의 위치는 다음과 같다: 서열번호 57: chr2(2번 염색체)의 45028785-45029307, 서열번호 58: chr2의 74742834-74743351, 서열번호 59: chr19의 19650745-19651270. 본 명세서에서, 서열의 염기 및 메틸화 부위는 참조 게놈 HG19에 따라 번호가 매겨져 있다.
하나 이상의 실시양태에서, 본원에 기술된 핵산 분자는 SIX3, TLX2, CILP2로부터 선택된 하나 이상의 유전자의 단편이다; 상기 단편의 길이는 1bp-1kb, 바람직하게는 1bp-700bp이고; 상기 단편은 염색체 영역에서 상응하는 유전자의 하나 이상의 메틸화 부위를 포함한다. 본 명세서에 기술된 유전자 또는 이의 단편의 메틸화 부위에는 다음이 포함되나 이에 국한되지는 않는다: chr2의 45028802, 45028816, 45028832, 45028839, 45028956, 45028961, 45028965, 45028973, 45029004, 45029017, 45029035, 45029046, 45029057, 45029060, 45029063, 45029065, 45029071, 45029106, 45029112, 45029117, 45029128, 45029146, 45029176, 45029179, 45029184, 45029189, 45029192, 45029195, 45029218, 45029226, 45029228, 45029231, 45029235, 45029263, 45029273, 45029285, 45029288, 45029295,74742838, 74742840, 74742844, 74742855, 74742879, 74742882, 74742891, 74742913, 74742922, 74742925, 74742942, 74742950, 74742953, 74742967, 74742981, 74742984, 74742996, 74743004, 74743006, 74743009, 74743011, 74743015, 74743021, 74743035, 74743056, 74743059, 74743061, 74743064, 74743068, 74743073, 74743082, 74743084, 74743101, 74743108, 74743111, 74743119, 74743121, 74743127, 74743131, 74743137, 74743139, 74743141, 74743146, 74743172, 74743174, 74743182, 74743186, 74743191, 74743195, 74743198, 74743207, 74743231, 74743234, 74743241, 74743243, 74743268, 74743295, 74743301, 74743306, 74743318, 74743321, 74743325, 74743329, 74743333, 74743336, 74743343, 74743346; chr19의 19650766, 19650791, 19650796, 19650822, 19650837, 19650839, 19650874, 19650882, 19650887, 19650893, 19650895, 19650899, 19650907, 19650917, 19650955, 19650978, 19650981, 19650995, 19650997, 19651001, 19651008, 19651020, 19651028, 19651041, 19651053, 19651059, 19651062, 19651065, 19651071, 19651090, 19651101, 19651109, 19651111, 19651113, 19651121, 19651123, 19651127, 19651133, 19651142, 19651144, 19651151, 19651166, 19651170, 19651173, 19651176, 19651179, 19651183, 19651185, 19651202, 19651204, 19651206, 19651225, 19651227, 19651235, 19651237, 19651243, 19651246, 19651263, 19651267. 상기 메틸화 부위의 돌연변이되지 않은 염기는 참조 게놈 HG19에 따라 번호가 매겨져 있다.
하나 이상의 실시양태에서, 상기 췌장암과 췌장염 사이의 구별은 다음 중 어느 하나로부터 선택된 유전자로부터의 서열의 메틸화 수준과 관련이 있다: ARHGEF16, PRDM16, NFIA, ST6GALNAC5, PRRX1, LHX4, ACBD6, FMN2, CHRM3, FAM150B, TMEM18, SIX3, CAMKMT, OTX1, WDPCP, CYP26B1, DYSF, HOXD1, HOXD4, UBE2F, RAMP1, AMT, PLSCR5, ZIC4, PEX5L, ETV5, DGKG, FGF12, FGFRL1, RNF212, DOK7, HGFAC, EVC, EVC2, HMX1, CPZ, IRX1, GDNF, AGGF1, CRHBP, PITX1, CATSPER3, NEUROG1, NPM1, TLX3, NKX2-5, BNIP1, PROP1, B4GALT7, IRF4, FOXF2, FOXQ1, FOXC1, GMDS, MOCS1, LRFN2, POU3F2, FBXL4, CCR6, GPR31, TBX20, HERPUD2, VIPR2, LZTS1, NKX2-6, PENK, PRDM14, VPS13B, OSR2, NEK6, LHX2, DDIT4, DNAJB12, CRTAC1, PAX2, HIF1AN, ELOVL3, INA, HMX2, HMX3, MKI67, DPYSL4, STK32C, INS, INS-IGF2, ASCL2, PAX6, RELT, FAM168A, OPCML, ACVR1B, ACVRL1, AVPR1A, LHX5, SDSL, RAB20, COL4A2, CARKD, CARS2, SOX1, TEX29, SPACA7, SFTA3, SIX6, SIX1, INF2, TMEM179, CRIP2, MTA1, PIAS1, SKOR1, ISL2, SCAPER, POLG, RHCG, NR2F2, RAB40C, PIGQ, CPNE2, NLRC5, PSKH1, NRN1L, SRR, HIC1, HOXB9, PRAC1, SMIM5, MYO15B, TNRC6C, 9-Sep, TBCD, ZNF750, KCTD1, SALL3, CTDP1, NFATC1, ZNF554, THOP1, CACTIN, PIP5K1C, KDM4B, PLIN3, EPS15L1, KLF2, EPS8L1, PPP1R12C, NKX2-4, NKX2-2, TFAP2C, RAE1, TNFRSF6B, ARFRP1, MYH9, 및 TXN2. 본 발명은 상기 언급된 유전자의 하나 이상의 CpG 또는 이의 단편을 함유하는 핵산 분자를 제공한다.
일부 실시양태에서, 상기 췌장암과 췌장염 사이의 구별은 서열 번호 60-160 또는 이의 상보적 서열로 이루어진 군 중 임의의 것으로부터 선택된 서열의 메틸화 수준과 상관관계가 있다.
본 명세서에 기재된 "췌장암과 췌장염의 구별에 관련된 서열"은 상기 101개의 유전자, 그 상류 또는 하류 20kb 이내의 서열, 상기 101개의 서열(서열번호 60~160) 또는 이들의 상보적인 서열을 포함한다. 본 명세서에서, 상기 서열의 염기 및 메틸화 부위는 참조 게놈 HG19에 상응하여 번호가 매겨져 있다.
하나 이상의 실시양태에서, 상기 핵산 분자의 길이는 1bp-1000bp, 1bp-900bp, 1bp-800bp, 1bp-700bp이다. 상기 핵산 분자의 길이는 임의의 상기 최종 값 사이의 범위일 수 있다.
본 명세서에 사용된 바와 같이, DNA 메틸화를 검출하는 방법은 중아황산염 변환 기반 PCR(예를 들어, 메틸화 특이적 PCR(MSP)), DNA 서열분석, 전체 게놈 메틸화 시퀀싱, 단순화된 메틸화 시퀀싱, 메틸화 민감성 제한 효소 분석, 형광 정량, 메틸화 민감성 고분해능 용융 곡선 분석, 칩 기반 메틸화 아틀라스, 질량 분석법과 같이 당업계에 잘 알려져 있다. 하나 이상의 실시형태에서, 상기 검출은 유전자 또는 부위(site)에서 임의의 가닥을 검출하는 것을 포함한다.
따라서, 본 발명은 DNA 메틸화를 검출하기 위한 시약에 관한 것이다. 위에서 언급한 DNA 메틸화 검출 방법에 사용되는 시약은 해당 분야에 잘 알려져 있다. 상기 DNA 증폭과 관련된 검출 방법에서 DNA 메틸화를 검출하기 위한 시약에는 프라이머가 포함된다. 상기 프라이머의 서열은 메틸화 특이적이거나 비특이적이다. 프라이머의 서열은 비메틸화 특이적 차단제를 포함할 수 있다. 상기 차단제는 메틸화 검출의 특이성을 향상시킬 수 있다. 상기 DNA 메틸화를 검출하기 위한 시약에는 프로브도 포함될 수 있다. 일반적으로 프로브 서열의 5' 말단은 형광 리포터로 라벨링되고 3' 말단은 소광제로 라벨링된다. 예시적으로, 프로브의 서열은 마이너 그루브 바인더(MGB; minor groove binder) 또는 LNA(Locked nucleic acid)를 포함한다. 상기 MGB와 LNA는 Tm 값을 높이고 분석의 특이성을 높이며 프로브 설계의 유연성을 높이는 데 사용된다. 본 명세서에 사용된 "프라이머"는 뉴클레오티드 중합이 개시될 때 합성을 안내하는 특정 뉴클레오티드 서열을 갖는 핵산 분자를 의미한다. 프라이머는 일반적으로 인공적으로 합성된 두 개의 올리고뉴클레오티드 서열이다. 하나의 프라이머는 표적 영역의 한쪽 끝의 DNA 주형 가닥과 상보적이며, 다른 프라이머는 표적 영역의 다른 쪽 끝의 다른 DNA 주형 가닥과 상보적이며 뉴클레오티드 중합의 시작점 역할을 한다. 프라이머는 일반적으로 최소 9bp이다. 시험관 내에서 인공적으로 설계된 프라이머는 중합효소 연쇄반응(PCR), qPCR, 서열분석 및 프로브 합성에 널리 사용된다. 일반적으로 프라이머는 증폭산물의 길이가 1-2000bp, 10-1000bp, 30-900bp, 40-800bp, 50-700bp, 50-700bp 이거나, 적어도 150bp, 적어도 140bp, 적어도 130bp, 적어도 120bp일 수 있다
본 명세서에서 용어 "변이체(variant)" 또는 "돌연변이체(mutant)"는 다른 핵산과 혼성화하는 능력을 유지하면서 참조 서열과 비교하여 하나 이상의 뉴클레오티드의 삽입, 결실 또는 치환에 의해 핵산 서열이 변경되는 폴리뉴클레오티드를 의미한다. 본원의 임의의 실시양태에 따른 돌연변이체는 참조 서열의 생물학적 활성을 유지하면서 참조 서열에 대해 적어도 70%, 바람직하게는 적어도 80%, 바람직하게는 적어도 85%, 바람직하게는 적어도 90%, 바람직하게는 적어도 95%, 바람직하게는 적어도 97%의 서열 동일성을 갖는 뉴클레오티드 서열을 포함한다. 2개의 정렬된 서열 사이의 서열 동일성은 예를 들어 NCBI의 BLASTn을 사용하여 계산할 수 있다. 상기 돌연변이체는 또한 참조 서열의 생물학적 활성을 여전히 유지하면서 참조 서열의 뉴클레오티드 서열에 하나 이상의 돌연변이(삽입, 결실 또는 치환)를 갖는 뉴클레오티드 서열을 포함한다. 다수의 돌연변이는 일반적으로 1-8, 1-5 또는 1-3과 같이 1-10 내의 돌연변이를 의미한다. 상기 치환은 퓨린 뉴클레오티드와 피리미딘 뉴클레오티드 사이, 또는 퓨린 뉴클레오티드 사이 또는 피리미딘 뉴클레오티드 사이에 있을 수 있다. 상기 치환은 바람직하게는 보존적 치환이다. 예를 들어, 당업계에서 유사하거나 유사한 특성을 갖는 뉴클레오티드를 사용한 보존적 치환은 일반적으로 폴리뉴클레오티드의 안정성 및 기능을 변경하지 않는다. 보존적 치환에는 퓨린 뉴클레오티드(A와 G) 사이의 교환과 피리미딘 뉴클레오티드(T 또는 U와 C) 사이의 교환이 포함된다. 따라서, 본 발명의 폴리뉴클레오타이드의 하나 또는 여러 부위를 동일한 측쇄의 잔기로 치환해도 폴리뉴클레오타이드의 활성에는 실질적으로 영향을 미치지 않는다. 또한, 메틸화 부위(예: 연속적인 CG)는 본 발명의 변이체에서 돌연변이되지 않는다. 즉, 본 발명의 방법은 해당 서열에서 메틸화 가능한 부위의 메틸화 상태를 검출하며, 메틸화 불가능한 부위의 염기에서 돌연변이가 발생할 수 있다. 일반적으로 메틸화 부위는 연속적인 CpG 디뉴클레오티드이다.
본 명세서에 기술된 바와 같이, DNA 또는 RNA 염기 사이에서 변환이 일어날 수 있다. 본원에 기재된 "변환", "시토신 변환" 또는 "CT 변환"은 비효소적 또는 효소적 방법을 사용하여 DNA를 처리함으로써 변형되지 않은 시토신(C)을 시토신보다 구아닌에 덜 결합할 수 있는 염기(예: 우라실(U))로 변환하는 과정을 의미한다. 시토신을 변환하기 위한 비효소적 또는 효소적 방법은 해당 분야에 잘 알려져 있다. 예시적으로, 비효소적 방법에는 중아황산칼슘, 중아황산나트륨, 중아황산칼륨, 중아황산암모늄, 중황산나트륨, 중황산칼륨 및 중황산암모늄과 같은 중아황산염, 산성 아황산염 또는 메타중아황산염과 같은 변환 시약을 사용한 처리가 포함된다. 예시적으로, 상기 효소적 방법에는 데아미나제 처리가 포함된다. 상기 변환된 DNA는 선택적으로 정제될 수 있다. 본원에서 사용하기에 적합한 DNA 정제 방법은 당업계에 잘 알려져 있다.
본 발명은 또한 췌장암 진단용 메틸화 검출 키트를 제공한다. 상기 키트는 본 명세서에 기술된 프라이머 및/또는 프로브를 포함하며, 본 발명자들에 의해 발견된 췌장암 관련 서열의 메틸화 수준을 검출하는 데 사용된다. 상기 키트는 또한 내부 표준 또는 양성 대조군으로서 본 명세서에 기술된, 특히 첫 번째 측면에 기술된 바와 같은 핵산 분자를 포함할 수 있다. 본 명세서에 기술된 용어 "혼성화"는 주로 엄격한 조건 하에서도 핵산 서열의 쌍을 이루는 것을 의미한다. 예시적인 엄격한 조건은 0.1×SSPE(또는 0.1×SSC) 및 0.1% SDS 용액에서 65℃에서 혼성화 및 막 세척을 하는 조건이다.
상기 키트에는 프라이머, 프로브 및 핵산 분자 외에도 DNA 메틸화를 검출하는 데 필요한 다른 시약도 포함되어 있다. 예시적으로, DNA 메틸화를 검출하기 위한 다른 시약은 다음 중 하나 이상을 포함할 수 있다: 중아황산염 및 이의 유도체, PCR 완충액, 중합효소, dNTP, 프라이머, 프로브, 메틸화에 민감하거나 민감하지 않은 제한 엔도뉴클레아제, 소화 완충액, 형광 염료, 형광 소광제, 형광 리포터, 엑소뉴클레아제, 알칼리성 포스파타제, 내부 표준 및 대조군.
상기 키트는 또한 메틸화되지 않은 시토신이 구아닌에 결합하지 않는 염기로 변환되는 변환된 양성 표준을 포함할 수 있다. 상기 양성 표준은 완전히 메틸화되었을 수 있다. 상기 키트는 또한 PCR 반응 시약을 포함할 수도 있다. 바람직하게는, 상기 PCR 반응 시약은 Taq DNA 폴리머라제, PCR 완충액, dNTP 및 Mg2+를 포함한다.
본 발명은 또한 다음 단계를 포함하는 췌장암 선별 방법을 제공한다: (1) 대상체의 샘플에서 본원에 기술된 췌장암 관련 서열의 메틸화 수준을 검출하는 단계; (2) 대조 시료 및/또는 참조 수준과 비교하거나 계산을 통해 점수를 얻는 단계; (3) 점수에 기초하여 피험자의 췌장암 여부를 확인하는 단계. 일반적으로, 상기 단계 (1)의 이전에, 샘플 DNA의 추출 및 품질 검사, 및/또는 DNA 상의 비메틸화 시토신을 구아닌과 결합하지 않는 염기로 변환시키는 단계를 추가로 포함한다.
특정 실시양태에서, 상기 단계 (1)은 다음 단계를 포함한다: 게놈 DNA 또는 cfDNA를 변환 시약으로 처리하여 비메틸화 시토신을 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기(예: 우라실)로 변환시키는 단계; 본 명세서에 기술된 췌장암 관련 서열의 변환된 서열을 증폭하는데 적합한 프라이머를 사용하여 PCR 증폭을 수행하는 단계; 증폭 산물의 존재 또는 부재에 의해 또는 서열 식별(예를 들어, 프로브 기반 PCR 식별 또는 DNA 서열분석 식별)에 의해 적어도 하나의 CpG의 메틸화 상태 또는 수준을 결정하는 단계.
대안적으로, 단계 (1)은 다음 단계들을 추가로 포함할 수 있다: 게놈 DNA 또는 cfDNA를 메틸화 민감성 제한 엔도뉴클레아제로 처리하는 단계; 본 명세서에 기술된 췌장암 관련 서열 중 적어도 하나의 CpG 서열을 증폭하는데 적합한 프라이머를 사용하여 PCR 증폭을 수행하는 단계; 증폭 산물의 유무에 따라 하나 이상의 CpG의 메틸화 상태 또는 수준을 결정하는 단계. 본원에 기재된 "메틸화 수준"은 관심 서열의 임의의 위치에서 임의의 수의 CpG의 메틸화 상태 관계를 포함한다. 상기 관계는 메틸화 상태 매개변수(예를 들어, 0 또는 1)의 추가 또는 뺄셈일 수도 있고, 메틸화 수준 측정값, 메틸화된 일배체형 분율 또는 메틸화된 일배체형 로드를 포함하되 이에 국한되지 않는 수학적 알고리즘의 계산 결과(예: 평균, 백분율, 분수, 비율, 정도 또는 수학적 모델을 사용한 계산)일 수도 있다. "메틸화 상태"라는 용어는 일반적으로 메틸화 또는 비메틸화(예: 메틸화 상태 매개변수 0 또는 1)를 포함하여 특정 CpG 사이트의 메틸화를 표시한다.
하나 이상의 실시양태에서, 대상체의 샘플 내 메틸화 수준은 대조 샘플 및/또는 기준 수준과 비교할 때 증가하거나 감소한다. 메틸화 표지 수준이 특정 임계값를 충족하면 췌장암이 식별된다. 대안적으로, 테스트된 유전자의 메틸화 수준을 수학적으로 분석하여 점수를 얻을 수 있다. 테스트한 샘플의 점수가 임계값보다 큰 경우 판정 결과가 양성이고, 이는 췌장암이 존재하는 것을 의미한다; 그렇지 않으면 음성이고, 이는 췌장암 혈장이 아닌 것을 의미한다. 종래의 수학적 분석 방법 및 임계값을 결정하는 프로세스는 해당 분야에 알려져 있다. 예시적인 방법은 수학적 모델이다. 예를 들어, 차등 메틸화 마커의 경우 지원 벡터 머신(support vector machine; SVM) 모델이 두 샘플 그룹에 대해 구성되고, 상기 모델은 검출 결과의 정밀도, 민감도, 특이도 및 예측값 특성 곡선 아래 면적(ROC) (AUC) 을 통계적으로 분석하고, 테스트 세트 샘플의 예측 점수를 통계적으로 분석하는 데 사용된다.
하나 이상의 실시양태에서, 대상체의 샘플 내 메틸화 수준은 대조 샘플 및/또는 기준 수준과 비교할 때 증가하거나 감소한다. 메틸화 표지 수준이 특정 임계값를 충족하면 췌장암이 식별되고 그렇지 않으면 만성 췌장염이 된다. 대안적으로, 테스트된 유전자의 메틸화 수준을 수학적으로 분석하여 점수를 얻을 수 있다. 테스트한 샘플의 점수가 임계값보다 큰 경우 판정 결과가 양성이고, 이는 췌장암이 존재하는 것을 의미한다; 그렇지 않으면 음성이고, 이는 췌장염을 의미한다. 임계값을 결정하기 위한 기존의 수학적 분석 방법 및 프로세스는 해당 분야에 알려져 있으며, 예시적인 방법은 지원 벡터 머신(support vector machine; SVM) 수학적 모델이다. 예를 들어, 차등 메틸화 마커의 경우 지원 벡터 머신(support vector machine; SVM) 모델이 훈련 그룹의 샘플에 대해 구성되고, 상기 모델을 이용하여 탐지 결과의 정밀도, 민감도, 특이성과 예측값 특성 곡선 아래 면적(ROC) (AUC)을 통계적으로 분석하고, 테스트 세트의 샘플에 대한 예측 점수를 통계적으로 분석한다. 지원 벡터 머신의 실시양태에서, 점수 임계값은 0.897이다. 점수가 0.897보다 크면 해당 개체는 췌장암 환자로 간주되며; 그렇지 않은 경우, 해당 개체는 만성 췌장염 환자로 간주된다.
바람직한 실시양태에서, 모델 훈련 프로세스는 다음과 같다:
먼저, 각 부위의 메틸화 수준에 따라 차별적으로 메틸화된 세그먼트를 얻고, 차별적으로 메틸화된 영역 매트릭스를 구축한다, 예를 들어, samtools 소프트웨어를 통해 HG19 게놈의 단일 CpG 디뉴클레오티드 위치의 메틸화 수준 데이터로부터 메틸화 데이터 매트릭스를 구축하고; 그런 다음 SVM 모델을 훈련한다.
예시적인 SVM 모델 훈련 과정은 다음과 같다:
a) 훈련 모델 모드가 구성된다. Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령 라인: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(0.23.1)는 SVM 모델 model.fit(x_train, y_train)을 구성하기 위해 데이터 매트릭스를 입력하는 데 사용된다. 여기서 상기 x_train은 훈련 세트 데이터 매트릭스를 나타내고, 상기 y_train은 훈련 세트의 표현형 정보를 나타낸다.
일반적으로 모델 구축 시 췌장암이 있는 카테고리는 1로, 췌장암이 없는 카테고리는 0으로 코딩될 수 있다. 본 발명에서는 Python 소프트웨어(v3.6.9)와 sklearn 소프트웨어 패키지(0.23.1)에서 임계값을 0.895로 설정하였다. 구축된 모델은 최종적으로 췌장암 유무에 따른 샘플을 0.895로 구분한다.
여기서 상기 샘플은 포유동물, 바람직하게는 인간으로부터 유래된다. 상기 샘플은 모든 기관(예: 췌장), 조직(예: 상피 조직, 결합 조직, 근육 조직 및 신경 조직), 세포(예: 췌장암 생검) 또는 체액(예: 혈액, 혈장, 혈청, 간질액, 소변)에서 채취할 수 있다. 일반적으로 샘플에 게놈 DNA 또는 cfDNA(순환 유리 DNA 또는 무세포 DNA)가 포함되어 있으면 충분하다. 순환 유리 DNA(circulating-free DNA) 또는 무세포 DNA라고 불리는 cfDNA는 혈장으로 방출되는 분해된 DNA 단편이다. 예시적으로, 상기 샘플은 췌장암 생검(biopsy), 바람직하게는 미세침 흡인 생검이다. 또는 샘플은 혈장 또는 cfDNA이다.
본 출원은 또한 췌장암과 관련된 메틸화된 일배체형 분획을 얻는 방법에 관한 것이다. 메틸화 표적 염기서열 분석(MethylTitan)을 통해 메틸화 데이터를 얻고, 예를 들어, 마커 부위를 스크리닝하고 테스트하는 과정은 다음과 같다: 원래의 페어드-엔드 시퀀싱 리드 - 읽기를 결합하여 결합된 단일-엔드 리드 얻는 단계 - 어댑터를 제거하여 어댑터-프리 리드 얻는 단계 - BAM 파일을 형성하기 위해 인간 DNA 게놈에 Bismark 정렬하는 단계 - samtools가 읽은 각 항목의 CpG 사이트 메틸화 수준을 추출하여 일배체형 파일을 형성하는 단계 - C 사이트 메틸화된 일배체형 분율을 통계적으로 분석하여 meth 파일을 형성하는 단계 - 메틸화된 일배체형 분획(methylated haplotype fraction;MHF)를 계산하는 단계 - Coverage 200을 사용하여 사이트를 필터링하여 meth.matrix 매트릭스 파일 형성하는 단계 - 0.1보다 큰 NA 값을 기반으로 필터링하여 사이트fmf 필터링하는 단계 - 샘플을 훈련 세트와 테스트 세트로 사전 분할하는 단계 - 훈련 세트의 각 일배체형에 대한 표현형의 로지스틱 회귀 모델을 구축하고, 각 메틸화된 일배체형 분획의 회귀 P 값을 선택하는 단계 - 각 MethylTitan 증폭 영역을 통계적으로 분석하고 가장 중요한 P 값을 갖는 메틸화된 일배체형을 선택하여 해당 영역의 메틸화 수준을 나타내고, 지원 벡터 머신을 통해 모델링하는 단계 - 훈련 세트(ROC 플롯)의 결과를 형성하고 검증용 모델을 사용하여 테스트 세트를 예측하는 단계. 구체적으로, 췌장암과 관련된 메틸화 된 일배 체형을 얻는 방법은 다음과 같은 단계를 포함한다: (1) 췌장암이 있거나없는 환자로부터 혈장 샘플을 테스트하고, CFDNA를 추출하고, 메틸 티탄 방법을 사용하여 라이브러리 구성 및 시퀀싱을 수행하고, 시퀀싱 판독 값을 얻는 단계; (2) 시퀀서에 의해 생성된 시퀀싱 데이터의 어댑터 제거 및 접합을 포함하여 시퀀싱 데이터를 전처리하는 단계; (3) 상기 전처리 후의 시퀀싱 데이터를 인간 게놈의 HG19 참조 게놈 서열에 정렬하여 각 단편의 위치를 결정하는 단계. 상기 단계 (2)의 데이터는 Illumina 시퀀싱 플랫폼 페어드 엔드 150bp 시퀀싱에서 가져올 수 있다. 단계 (2)의 어댑터 제거는 두 개의 페어드 엔드 시퀀싱 데이터의 5' 말단과 3' 말단에 있는 시퀀싱 어댑터를 각각 제거하고, 어댑터를 제거한 후 품질이 낮은 염기도 제거하는 것이다. 상기 단계 (2)의 스플라이싱 과정은 페어드 엔드 시퀀싱 데이터를 결합하여 이를 원래 라이브러리 조각으로 복원하는 것이다. 이를 통해 시퀀싱 단편의 더 나은 정렬과 정확한 위치 지정이 가능하다. 예를 들어 시퀀싱 라이브러리의 길이는 약 180bp이고 150bp의 쌍을 이루는 끝은 전체 라이브러리 조각을 완전히 덮을 수 있다. 상기 단계 (3)은 다음 단계를 포함한다: (a) HG19 참조 게놈 데이터에 대해 각각 CT 및 GA 변환을 수행하여 두 세트의 변환된 참조 게놈을 구축하고, 각각의 변환된 참조 게놈에 대한 정렬 인덱스를 구축하는 단계; (b) 결합된 상위 서열 데이터에 대해서도 CT 및 GA 변환을 수행하는 단계; (c) 상기 변환된 참조 유전체 서열을 각각 정렬하고, 최종적으로 정렬 결과를 요약하여 참조 유전체 내 시퀀싱 데이터의 위치를 결정하는 단계.
또한, 상기 췌장암과 관련된 메틸화 값을 구하는 방법은 (4) MHF를 계산하는 단계; (5) 메틸화된 일배체형 MHF 데이터 매트릭스를 구축하는 단계; (6) 샘플 그룹화에 따른 각 메틸화 일배체형의 로지스틱 회귀 모델을 구축하는 단계도 포함할 수 있다. 상기 단계 (4)는 단계 (3)에서 얻은 정렬 결과를 기반으로 HG19 참조 게놈 위치에서 메틸화된 일배체형 상태 및 시퀀싱 깊이 정보를 얻는 단계이다. 상기 단계 (5)는 메틸화된 일배체형 상태를 결합하고 깊이 정보 데이터를 데이터 매트릭스로 시퀀싱하는 단계를 포함한다. 이 중 깊이가 200 미만인 각 데이터 포인트는 결측값으로 처리되며, 결측값을 채우기 위해 K 최근접 이웃 방법(K Nearest Neighbor; KNN) 방법이 사용된다. 상기 단계 (6)은 로지스틱 회귀를 사용하여 위 매트릭스의 각 위치에 대한 통계적 모델링을 기반으로 두 그룹 간의 회귀 계수가 유의미한 일배체형을 스크리닝하는 단계로 구성된다.
본 발명은 DNA 메틸화와 CA19-9 수준, 췌장암 및 췌장염 사이의 관계를 탐구한다. 이는 마커 클러스터 DNA 메틸화 수준과 CA19-9 수준을 비침습적 방법을 통해 췌장암과 만성췌장염을 구별하는 마커로 활용하여 췌장암의 비침습적 진단의 정확도를 높이려는 목적이다.
본 발명자들은 췌장암 마커 스크리닝 및 진단에 CA19-9 수치를 병행할 경우 진단 정확도가 현저히 향상될 수 있음을 발견하였다.
본 발명은 먼저, 다음을 포함하는 췌장암 메틸화 마커 스크리닝 방법을 제공한다: (1) 개체의 게놈(예컨대 cfDNA)의 DNA 세그먼트의 메틸화된 일배체형 분획 및 시퀀싱 깊이를 획득하는 단계, 그리고 선택적으로 (2) 메틸화된 일배체형 분획 및 시퀀싱 깊이 데이터를 전처리하는 단계, 및 (3) 특징 메틸화된 세그먼트를 얻기 위해 교차 검증 증분 특징 선택(cross-validation incremental feature selection)을 수행하는 단계.
단계 (1)의 데이터 수집은 메틸화 검출 후 데이터를 분석하거나, 파일에서 직접 읽을 수 있다. 메틸화 검출이 수행되는 실시양태에서, 단계 (1)은 다음을 포함할 수 있다: 1.1) 시퀀싱 판독 데이터를 얻기 위해 대상 샘플의 DNA 메틸화를 검출하는 단계, 1.3) 메틸화된 세그먼트의 위치 및 시퀀싱 깊이 정보를 얻기 위해 시퀀싱 데이터를 참조 게놈에 정렬하는 단계, 다음 공식에 따라 세그먼트의 메틸화 일배체형 분획(MHF)을 계산하는 단계:
여기서 상기 i는 표적 메틸화 영역을 나타내고, h는 표적 메틸화 일배체형을 나타내고, Ni는 표적 메틸화 영역에 위치한 읽기 수를 나타내고, Ni,h는 표적 메틸화 일배체형을 포함하는 읽기 수를 나타낸다. 일반적으로 메틸화된 일배체형 분획은 표적 영역 내의 각 메틸화된 일배체형에 대해 계산되어야 한다. 이 단계는 또한 1.2) 어댑터 제거 및/또는 접합과 같은 시퀀싱 데이터를 사전 처리하는 단계를 포함할 수 있다.
단계 (2)는 메틸화된 일배체형 비율과 시퀀싱 깊이 정보 데이터를 결합하여 데이터 매트릭스로 만드는 단계로 구성된다. 또한, 결과를 보다 정확하게 만들기 위해 단계 (2)에는 다음도 포함된다: 데이터 매트릭스에서 결측값 비율이 5~15%(예를 들어, 10%) 보다 높고, 깊이가 300(예를 들어 200미만) 미만인 각 데이터 포인트에 대한 사이트를 제거하는 단계, 이는 결측값으로 처리되고, 상기 결측값은 K 최근접 이웃 방법(KNN)을 사용하여 대치됨.
하나 이상의 실시양태에서, 상기 단계 (3)은 수학적 모델을 사용하여 훈련 데이터에서 교차 검증 증분 특징 선택을 수행하는 단계를 포함하며, 여기서 상기 수학적 모델의 AUC를 증가시키는 DNA 세그먼트는 메틸화된 특징의 세그먼트이다. 그 중 수학적 모델은 지원 벡터 머신(Support Vector Machine Model; SVM) 모델 또는 랜덤 포레스트(Random Forest) 모델이 될 수 있다. 바람직하게는, 상기 단계 (3)은 다음 단계를 포함한다: (3.1) 관련성이 높은 후보 메틸화 세그먼트를 얻기 위해 메틸화된 일배체형 분획 및 시퀀싱 깊이에 따라 DNA 세그먼트의 관련성을 순위를 지정하는 단계, 및 (3.2) 교차 검증 증분 특징 선택을 수행하는 단계, 여기서 후보 메틸화 세그먼트는 관련성에 따라(예를 들어, 회귀계수에 따라 내림차순으로) 순위가 지정되고, 하나 이상의 후보 메틸화 세그먼트 데이터가 매번 추가되며, 테스트 데이터가 예측되고, 여기서 상기 평균 교차 검증 AUC가 증가하는 후보 메틸화 세그먼트는 특징 메틸화 세그먼트임. 그 중 상기 단계 (3.1)은 구체적으로 다음 단계를 포함할 수 있다: 메틸화된 일배체형 분획과 대상의 표현형에 대한 DNA 세그먼트의 시퀀싱 깊이를 기반으로 로지스틱 회귀 모델을 구축하고 큰 회귀 계수를 갖는 DNA 세그먼트를 선별하여 후보 메틸화 세그먼트를 형성하는 단계. 상기 단계 (3.2)의 예측은 모델(예: 지원 벡터 머신 모델 또는 랜덤 포레스트 모델)을 구성하여 이루어질 수 있다.
특징적인 메틸화 세그먼트를 얻은 후 CA19-9 수준과 결합하여 보다 정확한 췌장암 진단 모델을 구축할 수 있다. 따라서, 췌장암 진단모델 구축방법에서는 상기 (1)~(3)단계 외에도 (4) 메틸화 점수를 얻기 위해 특징 메틸화 세그먼트의 데이터에 대한 수학적 모델을 구축하는 단계, 및 (5) 메틸화 점수와 CA19-9 수준을 데이터 매트릭스로 결합하고, 데이터 매트릭스를 기반으로 췌장암 진단 모델을 구축하는 단계를 추가로 포함할 수 있다. 상기 단계 (4)의 "데이터"는 특징 메틸화 세그먼트의 메틸화 검출 결과이며, 바람직하게는 메틸화 일배체형 분획과 시퀀싱 깊이를 결합한 매트릭스이다.
상기 단계 (4)의 수학적 모델은 지원 벡터 머신(SVM) 모델, 랜덤 포레스트, 회귀 모델 등 진단 데이터 분석에 일반적으로 사용되는 모든 수학적 모델이 될 수 있다. 여기서, 예시적인 수학적 모델은 SVM(Support Vector Machine) 모델이다.
상기 단계 (5)의 췌장암 진단 모델은 SVM(Support Vector Machine) 모델, 랜덤 포레스트(Random Forest), 회귀 모델 등 진단 데이터 분석에 사용되는 수학적 모델이면 모두 가능하다. 여기서, 예시적인 췌장암 진단 모델은 아래와 같은 로지스틱 회귀 췌장암 모델이다:
여기서 M은 샘플의 메틸화 점수이고 C는 샘플의 CA19-9 수준이다. 하나 이상의 실시양태에서, 모델 임계값는 0.885이고, 이 값보다 더 높은 값은 췌장암을 나타내는 것으로 결정되고, 이 값보다 낮거나 같은 값은 췌장암이 없음을 나타내는 것으로 결정된다.
특정 실시양태에서, 췌장염과 췌장암을 구별하기 위한 머신 러닝-기반 방법은 다음 단계를 포함한다:
(1) 검사 대상인 췌장암 또는 췌장염 환자의 혈액을 추출하여 환자의 연령, 성별, CA19-9 검사 값 및 기타 정보를 수집하는 단계; (2) 검사할 췌장암 또는 췌장염 환자로부터 혈장 샘플을 채취하여 cfDNA를 추출하고 MethylTitan 방법을 사용하여 라이브러리를 만들고 시퀀싱을 수행하여 시퀀싱 리드를 얻는 단계; (3) 시퀀서에 의해 생성된 시퀀싱 데이터에 대해 어댑터 제거 및 스플라이싱을 수행하는 것을 포함하여 시퀀싱 데이터를 전처리하는 단계; (4) 위에서 언급한 전처리된 시퀀싱 데이터를 참조 게놈 서열에 정렬하여 각 단편의 위치를 결정하는 단계; (5) 메틸화된 일배체형 분획(MHF) 메틸화 수치 매트릭스를 계산하는 단계: 목표 메틸화 영역은 여러 개의 메틸화 일배체형을 가질 수 있고, 목표 영역의 각 메틸화 일배체형에 대해 이 값을 계산해야 하며 MHF 계산 공식은 다음과 같다:
여기서 i는 표적 메틸화 영역을 나타내고, h는 표적 메틸화 일배체형을 나타내고, Ni는 표적 메틸화 영역에 위치한 판독 수를 나타내고, Ni,h는 표적 메틸화 일배체형을 포함하는 판독 수를 나타냄; (6) 참조 게놈의 위치에 대해, 해당 위치에서 메틸화된 일배체형 분획 및 시퀀싱 깊이 정보를 얻고, 메틸화된 일배체형 분획 및 시퀀싱 깊이 정보 데이터를 데이터 매트릭스로 결합하며; 결측값 비율이 10%보다 높은 사이트를 제거하고, 깊이가 200 미만인 각 데이터 포인트를 결측값으로 취하고, KNN(최근접 이웃) 방법을 사용하여 결측값을 대치하는 단계; (7) 모든 샘플을 훈련 세트와 테스트 세트의 두 부분으로 나누는 단계; (8) 훈련 세트 샘플 그룹에 따라 메틸화된 특징 세그먼트를 탐색하는 단계: 표현형에 대한 각 메틸화 세그먼트에 대한 로지스틱 회귀 모델을 구축하고, 각 증폭된 표적 영역에 대해 가장 중요한 회귀 계수를 갖는 메틸화 세그먼트를 선택하기 위한 스크리닝을 수행하여 후보 메틸화 세그먼트를 형성함. 상기 훈련 세트는 10겹 교차 검증 증분 특징 선택을 위해 무작위로 10개 부분으로 나뉜다. 각 지역의 후보 메틸화 세그먼트를 회귀계수의 유의도에 따라 내림차순으로 순위화하고, 매번 하나의 메틸화 세그먼트의 데이터를 추가하여 테스트 데이터를 예측한다(예측을 위한 벡터 머신(SVM) 모델 구축). 상기 차별화 지수는 10회 교차 검증 AUC의 평균값이다. 훈련 데이터의 AUC가 증가하면 후보 메틸화 세그먼트는 특징 메틸화 세그먼트로 유지되고, 그렇지 않으면 폐기된다; (9) 상기 단계 (8)에서 스크리닝된 훈련 세트 중 특징적인 메틸화 영역의 데이터를 SVM(Support Vector Machine) 모델에 통합하고, 테스트 세트에서 모델의 성능을 검증하는 단계; (10) 단계 (9)의 훈련 세트 SVM 모델의 예측 점수를 결합한 데이터 매트릭스를 통합하고, 훈련 세트 샘플에 해당하는 CA19-9 측정값을 로지스틱 회귀 모델에 대입하고, 테스트 세트에서 CA19-9와 결합된 모델의 성능을 검증하는 단계.
본 발명은 또한 DNA 메틸화를 검출하기 위한 시약 또는 장치와 CA19-9 수준을 검출하기 위한 시약 또는 장치를 포함하는 췌장암 진단용 키트를 제공한다.
상기 DNA 메틸화를 검출하기 위한 시약은 DNA 서열 또는 이의 단편의 메틸화 수준, 또는 피험자의 시료 내 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 결정하는 데 사용된다. DNA 메틸화를 검출하기 위한 예시적인 시약에는 본 발명자들에 의해 발견된 췌장암과 췌장염 사이의 분화와 관련된 서열의 메틸화 수준을 검출하기 위해 본원에 기술된 프라이머 및/또는 프로브가 포함된다.
본 명세서에 기술된 CA19-9 수치는 주로 체액(혈액, 혈장 등) 내 CA19-9 수치를 의미한다. CA19-9 수준을 검출하기 위한 시약은 면역 반응을 기반으로 한 검출 시약 등 CA19-9 검출 방법에 사용될 수 있는 당업계에 공지된 임의의 시약일 수 있고, 다음을 포함하되 이에 국한되지 않는다: CA19-9에 대한 항체 및 선택적 완충액, 세척액 등. 본 발명에서 사용되는 예시적인 검출 방법은 화학발광 면역분석법을 통해 CA19-9의 함량을 검출하는 것이다. 구체적인 단계는 다음과 같다: 먼저 CA19-9에 대한 항체를 화학발광 마커(아크리디늄 에스테르)로 표지하고, 상기 표지된 항체와 CA19-9 항원은 면역반응을 거쳐 CA19-9 항원-아크리디늄 에스테르 표지된 항체 복합체를 형성한다. 그 후 산화제(H2O2)와 NaOH를 첨가하여 알칼리성 환경을 형성한다. 이때 상기 아크리디늄 에스테르는 촉매 없이 분해되어 빛을 방출할 수 있다. 단위 시간당 생성된 광자 에너지는 집광기와 광전자 증배관(화학발광 검출기)에 의해 수신되어 기록된다. 이 빛의 전체(integral)는 CA19-9 항원의 양에 비례하며 CA19-9의 함량은 표준 곡선에 따라 계산할 수 있다.
본 발명은 다음 단계를 포함하는 췌장암 진단 방법을 추가로 포함한다: (1) 개체의 시료 내 DNA 서열 또는 이의 단편의 메틸화 수준 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준, 및 피험자의 CA19-9 수준을 획득하는 단계, (2) 메틸화 점수를 얻기 위해 메틸화 상태 또는 수준을 사용하여 계산하기 위해 수학적 모델(예: 지원 벡터 기계 모델 또는 랜덤 포리스트 모델)을 사용하는 단계, (3) 메틸화 점수와 CA19-9 수준을 데이터 매트릭스로 결합하는 단계, (4) 데이터 매트릭스를 기반으로 췌장암 진단 모델(예: 로지스틱 회귀 모델)을 구축하는 단계, 그리고 선택적으로 (5) 췌장암 점수를 얻는 단계; 그리고, 상기 췌장암 점수의 임계값 도달 여부에 따라 췌장암을 진단하는 단계. 상기 방법은 상기 단계 (1) 이전에 DNA 추출 및/또는 품질 검사를 더 포함할 수 있다. 본 발명은 특히 췌장염 환자로부터 췌장암을 식별하는데, 즉 췌장암과 췌장염을 구별하는데 적합하다.
상기 개체는, 예를 들어 췌장염 진단을 받은 환자, 췌장염 진단을 받은 적이 있는(이전 진단) 환자이다. 즉, 하나 이상의 실시양태에서, 상기 방법은 이전에 진단된 환자를 포함하여 만성 췌장염으로 진단된 환자에서 췌장암을 확인한다. 물론, 본 발명의 방법은 상기 언급된 개체에 국한되지 않고, 진단되지 않은 개체에서 췌장염 또는 췌장암을 직접 진단하고 확인하는데 사용될 수도 있다.
특정 실시양태에서, 상기 단계 (1)은 개체의 샘플에서 DNA 서열 또는 이의 단편의 메틸화 수준, 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 검출하는 단계, 예를 들어, 본원에 기술된 프라이머 분자 및/또는 프로브 분자를 사용하여 메틸화 상태 또는 수준을 검출하는 단계를 포함한다.
메틸화 상태 또는 수준을 검출하고 CA19-9 수준을 검출하는 방법은 본 문서의 다른 곳에 설명되어 있다. 메틸화 상태 또는 수준을 검출하는 구체적인 방법은 다음을 포함한다: 게놈 DNA 또는 cfDNA를 변환 시약으로 처리하여 비메틸화 시토신을 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기(예: 우라실)로 변환시키는 단계; 본 명세서에 기술된 췌장암과 췌장염의 분화와 관련된 서열의 변환된 서열을 증폭하는데 적합한 프라이머를 사용하여 PCR 증폭을 수행하는 단계; 증폭된 산물의 존재 또는 부재에 의해 또는 서열 식별(예를 들어, 프로브 기반 PCR 식별 또는 DNA 서열분석 식별)에 의해 적어도 하나의 CpG의 메틸화 수준을 결정하는 단계.
먼저, 각 부위의 메틸화 수준에 따라 차별적으로 메틸화된 세그먼트를 얻고, 차별적으로 메틸화된 영역 매트릭스를 구축하는 단계, 예를 들어, samtools 소프트웨어를 통해 HG19 게놈의 단일 CpG 디뉴클레오티드 위치의 메틸화 수준 데이터로부터 메틸화 데이터 매트릭스를 구축하는 단계; 그 후 SVM 모델을 훈련시키는 단계.
예시적인 SVM 모델 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(v0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령줄: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(v0.23.1)는 SVM 모델 model.fit(x_train, y_train)을 구성하기 위한 데이터 매트릭스를 입력하는 데 사용된다. 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타냄.
발명자들의 발견에 따르면, 메틸화 점수와 CA19-9 수준을 결합하면 진단 정확도가 크게 향상될 수 있다. 구체적으로, 메틸화 점수와 CA19-9 수준을 데이터 매트릭스로 결합한 후, 데이터 매트릭스를 기반으로 췌장암 진단 모델(예: 로지스틱 회귀 모델)을 구축하여 췌장암 점수를 얻는다.
메틸화 점수와 CA19-9 수준의 데이터 매트릭스는 선택적으로 정규화된다. 표준화는 당업계의 통상적인 표준화 방법을 사용하여 수행될 수 있다. 본 발명의 실시양태에서는 RobustScaler 표준화 방법을 예로 들어 설명하며, 표준화 공식은 다음과 같다:
여기서 x와 x'는 각각 정규화 전과 후의 샘플 데이터이고, 중앙값은 샘플의 중앙값이고, IQR은 샘플의 사분위수 범위이다.
메틸화 점수와 유사하게, 종래의 수학적 모델링 방법 및 데이터 행렬을 통해 임계값을 결정하는 프로세스는 예를 들어, 지원 벡터 머신(SVM) 수학적 모델, 랜덤 포레스트 모델 또는 로지스틱 회귀 모델을 통해 당업계에 알려져 있다. 예시적인 접근 방식은 로지스틱 회귀 모델이다. 예를 들어, 차등 메틸화 마커의 경우 훈련 그룹의 샘플에 대해 로지스틱 회귀 모델을 구축하고, 이 모델을 이용하여 예측값 특성곡선 아래 영역 (ROC) (AUC) 뿐만 아니라 검출 결과의 정밀도, 민감도, 특이도를 통계적으로 분석하고, 테스트 세트의 샘플에 대한 예측 점수를 통계적으로 분석한다. 메틸화 수준과 CA19-9 수준을 합친 췌장암 점수가 특정 임계값을 충족하면 췌장암으로 식별되고, 그렇지 않으면 만성 췌장염으로 식별된다.
또 다른 측면에서, 본 출원은 검사할 샘플에서 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1 및/또는 EMX1을 갖는 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는, 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하는 방법을 제공한다. 예를 들어, 본 출원의 방법은 검사할 샘플 내 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1 및/또는 EMX1를 갖는 DNA 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량에 대한 결정 결과를 기반으로 췌장 종양이 존재하는지 여부를 결정하는 단계를 포함할 수 있다. 예를 들어, 본 출원의 방법은 검사할 샘플 내 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1을 갖는 DNA 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량에 대한 판정 결과를 기초로 췌장 종양의 발달이 진단되는지 여부를 평가하는 단계를 포함할 수 있다. 예를 들어, 본 출원의 방법은 검사할 샘플 내 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1를 갖는 DNA 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량의 결정 결과에 기초하여, 췌장 종양의 발생으로 진단될 위험이 있는지 여부 및/또는 위험 수준을 판단하는 단계를 포함할 수 있다. 예를 들어, 본 출원의 방법은 검사할 샘플 내 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1를 갖는 DNA 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량의 결정 결과에 기초하여 췌장 종양의 진행을 평가하는 단계를 포함할 수 있다.
예를 들어, 본 출원의 방법은 검사할 샘플 내 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1를 갖는 DNA 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량의 결정하는 단계를 포함하는, 췌장 종양 관련 DNA 영역의 메틸화 상태를 평가하는 방법을 제공한다. 예를 들어, 검사할 샘플 내 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1를 갖는 DNA 영역 또는 그 단편의 변형 상태의 존재 및/또는 함량에 관한 결정 결과를 기반으로 췌장 종양 관련 DNA 영역의 메틸화 상태를 평가하는 단계를 포함할 수 있다. 예를 들어, 상기 췌장 종양 관련 DNA 영역의 메틸화 상태는 확인된 존재 또는 해당 DNA 영역의 기준 수준에 비해 메틸화 함량의 증가를 의미할 수 있으며, 이는 췌장 종양의 발생과 연관될 수 있다.
예를 들어, 본 출원의 DNA 영역은 인간 chr2:74740686-74744275에서 유래, 인간 chr8:25699246-25907950에서 유래, 인간 chr12:4918342-4960278에서 유래, 인간 chr13:37005635-37017019에서 유래, 인간 chr1:63788730-63790797에서 유래 derived from 인간 chr1:248020501-248043438에서 유래, 인간 chr2:176945511-176984670에서 유래, 인간 chr6:137813336-137815531에서 유래, 인간 chr7:155167513-155257526에서 유래, 인간 chr19:51226605-51228981에서 유래, 인간 chr7:19155091-19157295에서 유래 및, 인간 chr2:73147574-73162020에서 유래될 수 있다. 예를 들어, 본 출원의 유전자는 그 명칭 및 염색체 좌표로 기술될 수 있다. 예를 들어, 염색체 좌표는 2009년 2월에 공개된 인간 게놈 데이터베이스의 Hg19 버전(또는 "Hg19 좌표")과 일치할 수 있다. 예를 들어, 본 출원의 DNA 영역은 상기 Hg19 좌표에 의해 정의된 영역에서 유래될 수 있다.
또 다른 측면에서, 본 출원은 검사할 샘플 내 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1 및/또는 EMX1을 갖는 DNA 영역의 특정 하위 영역, 이의 상보 영역 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는, 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하는 방법을 제공한다.
또 다른 측면에서, 본 출원은 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하는 방법을 제공하며, 상기 방법은 검사할 샘플 내 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래, 및 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군으로부터 선택된 DNA 영역, 또는 이의 상보적 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 것을 포함할 수 있다. 예를 들어, 본 출원의 방법은 검사할 샘플 내 DNA 영역, 이의 상보적 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량에 대한 판단 결과에 기초하여 질병이 존재하는지 여부를 확인하는 단계를 포함할 수 있다. 예를 들어, 본 출원의 방법은 검사할 샘플 내 DNA 영역, 이의 상보적인 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량의 결정 결과에 기초하여 질병의 발병이 진단되는지 여부를 평가하는 단계를 포함할 수 있다. 예를 들어, 본 출원의 방법은 검사할 샘플 내 DNA 영역, 이의 상보적인 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 변형 내용의 판단 결과에 기초하여 질병으로 진단될 위험이 있는지 여부 및/또는 위험 수준을 평가하는 단계를 포함할 수 있다. 예를 들어, 본 출원의 방법은 검사할 샘플 내 DNA 영역, 이의 상보적 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량의 결정 결과에 기초하여 질병의 진행을 평가하는 단계를 포함할 수 있다.
또 다른 측면에서, 본 출원은 DNA 영역의 메틸화 상태를 결정하는 방법을 제공하며, 이는 검사할 샘플 내에서 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래 및 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군에서 선택되는 DNA 영역, 이의 상보적 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함할 수 있다. 예를 들어, 해당 DNA 영역의 메틸화 기준 수준에 비해 확인된 존재 또는 증가된 함량은 질병의 발생과 연관될 수 있다. 예를 들어, 본 출원에서 DNA 영역은 게놈 DNA의 특정 부분을 의미할 수 있다. 예를 들어, 본 출원의 DNA 영역은 유전자명이나 염색체 좌표의 집합으로 지정될 수 있다. 예를 들어, 상기 유전자는 그 이름을 참조하여 결정되는 서열 및 염색체 위치를 갖거나 염색체 좌표를 참조하여 결정되는 서열 및 염색체 위치를 가질 수 있다. 본 출원은 이들 특정 DNA 영역의 메틸화 상태를 일련의 분석 지표로 사용하며, 이는 민감도 및/또는 특이성의 상당한 개선을 제공할 수 있고 스크리닝 과정을 단순화할 수 있다. 예를 들어, "민감도"는 정확하게 확인된 양성 결과의 비율, 즉 논의 중인 질병이 있는 것으로 정확하게 확인된 개인의 비율을 의미할 수 있고, "특이성"은 정확하게 식별된 음성 결과의 비율, 즉 논의 중인 질병이 없는 것으로 올바르게 식별된 개인의 비율을 의미할 수 있다.
예를 들어, 상기 변이체는 본 명세서에 기술된 DNA 영역과 적어도 80%, 적어도 85%, 적어도 90%, 95%, 98% 또는 99% 동일성을 갖는 서열을 포함할 수 있고, 상기 변이체는 하나 이상의 결실, 첨가, 치환, 역전된 서열 등을 포함할 수 있다. 예를 들어, 본 출원의 변형 상태는 동일한 평가 결과를 얻을 수 있다. 본 출원의 DNA 영역은 모든 형태의 임의의 다른 돌연변이, 다형성 변이 또는 대립유전자 변이를 포함할 수 있다.
예를 들어, 본 출원의 방법은 다음 단계를 포함할 수 있다: 서열번호 164, 168, 172, 176, 180, 184, 188, 192, 196, 200, 204, 208, 212, 216, 220, 224, 228, 및 232로 구성된 군으로부터 선택되는 DNA 영역, 또는 이의 상보적인 영역, 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 핵산을 제공하는 단계.
또 다른 측면에서, 본 출원은 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하는 방법을 제공하고, 상기 방법은 이는 검사할 샘플 내에서 인간 chr2:74743042-74743113에서 유래, 인간 chr2:74743157-74743253에서 유래, 인간 chr2:74743042-74743113에서 유래, 인간 chr2:74743157-74743253에서 유래, 인간 chr8:25907865-25907930에서 유래, 인간 chr8:25907698-25907814에서 유래, 인간 chr12:4919188-4919272에서 유래, 인간 chr12:4919036-4919164에서 유래, 인간 chr12:4919341-4919438에서 유래, 인간 chr13:37005652-37005721에서 유래, 인간 chr13:37005458-37005596에서 유래, 인간 chr13:37005694-37005824에서 유래, 인간 chr1:63788850-63788913에서 유래, 인간 chr1:248020635-248020731에서 유래, 인간 chr2:176945521-176945603에서 유래, 인간 chr6:137814750-137814815에서 유래, 인간 chr7:155167531-155167610에서 유래, 인간 chr19:51228620-51228722에서 유래, 인간 chr7:19156779-19157914에서 유래 및 인간 chr2:73147571-73147626에서 유래된 DNA 영역으로 구성된 군으로부터 선택되는 DNA 영역, 이의 상보적 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함할 수 있다.
예를 들어, 상기 영역 중 하나 이상은 증폭 영역 및/또는 검출 영역의 역할을 할 수 있다.
예를 들어, 본 출원의 방법은 다음을 포함할 수 있다: 서열 번호: 165, 169, 173, 177, 181, 185, 189, 193, 197, 201, 205, 209, 213, 217, 221, 225, 229 및 233으로 구성된 군으로부터 선택된 핵산, 또는 이의 상보적 핵산, 또는 이의 단편을 제공하는 단계. 예를 들어, 상기 핵산은 표적 영역을 검출하는 데 사용될 수 있다. 예를 들어, 상기 핵산은 프로브로 사용될 수 있다.
예를 들어, 본 출원의 방법은 다음을 포함할 수 있다: 서열번호 166과 167, 서열번호 170과 171, 서열번호 174와 175, 서열번호 178과 179, 서열번호 182와 183, 서열번호 186과 187, 서열번호 190과 191, 서열번호 194와 195, 서열번호 198과 199, 서열번호 202와 203, 서열번호 206과 207, 서열번호 210과 211, 서열번호 214와 215, 서열번호 218과 219, 서열번호 222와 223, 서열번호 226과 227, 서열번호 230과 231, 서열번호 234와 235로 구성된 군에서 선택되는 핵산 조합, 또는 이의 상보적 핵산 조합, 또는 이의 단편을 제공하는 단계. 예를 들어, 상기 핵산 조합은 표적 영역을 증폭하는 데 사용될 수 있다. 예를 들어, 상기 핵산 조합은 프라이머 조합의 역할을 할 수 있다.
예를 들어, 상기 질병에는 종양이 포함될 수 있다. 예를 들어, 상기 질병에는 고형 종양이 포함될 수 있다. 예를 들어, 상기 질병에는 췌장 종양과 같은 모든 종양이 포함될 수 있다. 예를 들어, 선택적으로 본 출원의 질병은 췌장암을 포함할 수 있다. 예를 들어, 임의로 본 출원의 질환은 췌장관 선암종을 포함할 수 있다. 예를 들어, 선택적으로 본 출원의 췌장 종양은 췌장관 선암종을 포함할 수 있다.
예를 들어, "상보적인" 및 "실질적으로 상보적인"은 뉴클레오티드 또는 핵산 사이, 예를 들어, 이중 가닥 DNA 분자의 두 가닥 사이, 또는 올리고뉴클레오티드 프라이머와 단일 가닥 핵산의 프라이머 결합 부위 사이의 혼성화 또는 염기쌍 형성 또는 이중 가닥의 형성을 포함할 수 있다. 상보적인 뉴클레오티드는 일반적으로 A와 T(또는 A와 U) 또는 C와 G일 수 있다. 두 개의 단일 가닥 RNA 또는 DNA 분자의 경우, 한 가닥의 뉴클레오티드가 최적으로 정렬되고 비교되고 적절한 뉴클레오티드 삽입 또는 삭제가 있을 때 다른 가닥의 뉴클레오티드와 적어도 약 80%(보통 적어도 약 90% 내지 약 95%, 또는 심지어 약 98% 내지 약 100%) 쌍을 이루는 경우 실질적으로 상보적인 것으로 간주될 수 있다. 한 측면에서, 2개의 상보적인 뉴클레오티드 서열은 25% 미만의 불일치, 보다 바람직하게는 15% 미만의 불일치, 5% 미만의 불일치 또는 역 뉴클레오티드 사이의 불일치 없이 혼성화할 수 있다. 예를 들어, 두 분자는 매우 엄격한 조건에서 혼성화할 수 있다.
예를 들어, 본 출원에서의 변형 상태는 DNA 영역 내의 특정 뉴클레오티드 또는 다중 뉴클레오티드에서의 변형 상태의 존재, 부재 및/또는 포함(content)을 의미할 수 있다. 예를 들어, 본 출원에서의 변형 상태는 특정 DNA 서열 중 각 염기 또는 각 특정 염기(예를 들어 시토신)의 변형 상태를 의미할 수 있다. 예를 들어, 본 출원에서의 변형 상태는 특정 DNA 서열의 염기쌍 조합 및/또는 염기 조합의 변형 상태를 의미할 수 있다. 예를 들어, 본 출원에서의 변형 상태는 특정 DNA 서열(유전자가 위치한 DNA 영역 또는 그 특정 영역 단편을 포함함)의 영역 변형 밀도에 대한 정보를 의미할 수 있으나, 서열 중 어느 위치에서 변형이 발생하는지에 대한 정확한 위치 정보를 제공하지 못할 수 있다.
예를 들어, 본 출원의 변형 상태는 메틸화 상태 또는 메틸화와 유사한 상태일 수 있다. 예를 들어, 상기 메틸화된 상태 또는 고도로 메틸화된 상태는 특정 영역의 전사 침묵과 연관될 수 있다. 예를 들어, 메틸화되거나 고도로 메틸화된 상태는 메틸화 특이적 변환 시약(예: 탈아민화 시약 및/또는 메틸화 민감성 제한 효소)에 의해 변환될 수 있는 것과 연관될 수 있다. 예를 들어, 상기 변환은 다른 물질로 변환되는 것 및/또는 분해되거나 소화되는 것을 의미할 수 있다.
예를 들어, 상기 방법은 검사할 샘플에서 핵산을 얻는 단계를 추가로 포함할 수 있다. 예를 들어, 상기 핵산은 무세포 핵산을 포함할 수 있다. 예를 들어, 검사할 샘플에는 조직, 세포 및/또는 체액이 포함될 수 있다. 예를 들어, 상기 검사할 샘플에는 혈장가 포함될 수 있다. 예를 들어, 본 출원의 검출 방법은 임의의 적합한 생물학적 샘플에 대해 수행될 수 있다. 예를 들어, 상기 검사할 샘플은 생물학적 물질의 모든 샘플이 될 수 있다. 예를 들어 동물에게서 유래될 수도 있고, 세포 물질, 생물학적 체액(예: 혈액), 분비물, 조직 생검 표본, 수술 표본 또는 동물의 체내에 유입된 후 제거되는 체액에 국한되지 않는다. 예를 들어, 본 출원의 검사할 샘플은 샘플을 분리한 후 어떠한 형태로든 가공된 샘플을 포함할 수 있다.
예를 들어, 상기 방법은 DNA 영역 또는 이의 단편을 변환시키는 단계를 추가로 포함할 수 있다. 예를 들어, 본 출원의 변환 단계를 통해 변형된 염기와 변형되지 않은 염기는 변환 후 서로 다른 물질을 형성할 수 있다. 예를 들어, 상기 변형 상태를 갖는 염기는 변환 후 실질적으로 변하지 않고, 변형 상태가 없는 염기는 변환 후 염기와 다른 다른 염기(예를 들어, 다른 염기는 우라실을 포함할 수 있음)로 바뀌거나 변환 후 절단될 수 있다. 예를 들어, 상기 염기는 시토신을 포함할 수 있다. 예를 들어, 상기 변형은 메틸화 변형을 포함할 수 있다. 예를 들어, 상기 변환은 탈아미노화 시약 및/또는 메틸화 민감성 제한 효소에 의한 변환을 포함할 수 있다. 예를 들어, 상기 탈아미노화제는 중아황산염 또는 이의 유사체를 포함할 수 있다. 예를 들어, 중아황산나트륨 또는 중아황산칼륨일 수 있다.
예를 들어, 상기 방법은 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하기 전에 검사할 샘플에서 DNA 영역 또는 이의 단편을 증폭시키는 단계를 추가로 포함할 수 있다. 예를 들어, 상기 증폭은 PCR 증폭을 포함할 수 있다. 예를 들어, 본 출원에서의 증폭은 공지된 임의의 증폭 시스템을 포함할 수 있다. 예를 들어, 본 출원의 증폭 단계는 선택적일 수 있다. 예를 들어, "증폭"은 원하는 서열의 여러 복사본을 생성하는 과정을 의미할 수 있다. 상기 "여러 사본(Multiple copies)"은 최소 2개의 사본을 의미할 수 있다. 상기 "사본"는 주형 서열에 대한 완벽한 서열 상보성 또는 동일성을 의미하지 않을 수 있다. 예를 들어, 상기 사본에는 데옥시이노신과 같은 뉴클레오티드 유사체, 의도적인 서열 변경(예: 혼성화 가능하지만 주형에 상보적이지 않은 서열을 포함하는 프라이머에 의해 도입된 변화)이 포함될 수 있으며/또는 증폭 중에 발생할 수 있는 서열 오류가 발생할 수 있다.
예를 들어, 상기 변형 상태의 존재 및/또는 함량을 결정하는 방법은 변환 후 변형 상태를 갖는 염기에 의해 형성된 물질의 존재 및/또는 함량을 결정하는 단계를 포함할 수 있다. 예를 들어, 상기 변형 상태의 존재 및/또는 함량을 결정하는 방법은 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량을 결정하는 단계를 포함할 수 있다. 예를 들어, 상기 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량을 직접적으로 검출할 수 있다. 예를 들어, 이는 다음과 같은 방식으로 검출될 수 있다: 변형 상태가 있는 DNA 영역 또는 이의 단편은 변형 상태가 없는 DNA 영역 또는 이의 단편과 반응(예: 증폭 반응) 동안 다른 특성을 가질 수 있다. 예를 들어, 형광 PCR 방법에서는 상기 변형 상태를 갖는 DNA 영역 또는 그 단편이 특이적으로 증폭되어 형광을 방출할 수 있고; 상기 변형 상태가 없는 DNA 영역이나 그 단편은 실질적으로 증폭되지 않을 수 있으며, 기본적으로 형광을 방출하지 않는다. 예를 들어, 상기 변형 상태를 갖는 염기의 변환 시 형성된 종의 존재 및/또는 함량을 결정하는 대안적인 방법이 본 출원의 범위 내에 포함될 수 있다.
예를 들어, 상기 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량은 형광 PCR 방법에 의해 검출된 형광 Ct 값에 의해 결정될 수 있다. 예를 들어, 상기 췌장 종양의 존재, 또는 췌장 종양의 발병 또는 발병 위험은 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 기준 수준에 비해 DNA 영역 또는 이의 단편의 더 높은 함량의 변형 상태를 결정함으로써 결정될 수 있다. 예를 들어, 검사할 샘플의 형광 Ct 값이 기준 형광 Ct 값보다 낮은 경우, 상기 DNA 영역 또는 이의 단편의 변형 상태의 존재가 결정될 수 있고/있거나 DNA 영역 또는 이의 단편의 변형 상태의 함량이 기준 시료의 변형 상태의 함량보다 높다고 결정될 수 있다. 예를 들어, 기준 형광 Ct 값은 기준 샘플을 검출함으로써 결정될 수 있다. 예를 들어, 검사할 샘플의 형광 Ct 값이 기준 형광 Ct 값보다 높거나 실질적으로 동등한 경우, DNA 영역 또는 그 단편의 변형 상태의 존재가 배제되지 않을 수 있다; 검사할 샘플의 형광 Ct 값이 기준 형광 Ct 값보다 높거나 실질적으로 동등한 경우, DNA 영역의 변형 상태 함량이 참조 샘플의 변형 상태 함량보다 낮거나 실질적으로 동일한 것으로 확인할 수 있다.
예를 들어, 본 출원은 사이클 임계값(즉, Ct 값)를 통해 특정 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 내용을 나타낼 수 있다. 예를 들어, 여기에는 검사할 샘플의 메틸화 수준과 참조 수준이 포함될 수 있다. 예를 들어, 상기 Ct 값은 PCR 산물의 형광이 배경 신호 이상으로 검출될 수 있는 사이클 수를 의미할 수 있다. 예를 들어, Ct 값과 샘플 내 표적 마커의 시작 함량 사이에는 음의 상관관계가 있을 수 있다. 즉, Ct 값이 낮을수록 검사할 샘플의 DNA 영역 또는 그 단편의 변형 상태 함량이 더 커진다.
예를 들어, 검사할 샘플의 Ct 값이 해당 기준 Ct 값과 같거나 낮은 경우, 특정 질병의 존재로 확인될 수도 있고, 특정 질병의 발병 또는 발병 위험으로 진단될 수도 있고, 특정 질병의 특정 진행으로 평가될 수도 있다. 예를 들어, 검사할 샘플의 Ct 값이 해당 기준 Ct 값보다 1주기 이상, 2주기 이상, 5주기 이상, 10주기 이상, 20주기 이상, 또는 50주기 이상 낮은 경우, 특정 질병의 존재로 확인될 수도 있고, 특정 질병의 발병 또는 발병 위험으로 진단될 수도 있고, 특정 질병의 특정 진행으로 평가될 수도 있다.
예를 들어, 세포 샘플, 조직 샘플 또는 개체 유래 샘플의 Ct 값이 해당 기준 Ct 값과 동일하거나 높을 경우, 특정 질병이 없는 것으로 확인될 수도 있고, 특정 질병의 발병 또는 발병 위험으로 진단되지 않을 수도 있고, 특정 질병의 특정 진행으로 평가되지 않을 수도 있다. 예를 들어, 세포 샘플, 조직 샘플 또는 개체 유래 샘플의 Ct 값이 해당 기준 Ct 값보다 1주기 이상, 2주기 이상, 5주기 이상, 10주기 이상, 20주기 이상, 또는 50주기 이상 높은 경우, 특정 질병이 없는 것으로 확인될 수도 있고, 특정 질병의 발병 또는 발병 위험으로 진단되지 않을 수도 있고, 특정 질병의 특정 진행으로 평가되지 않을 수도 있다. 예를 들어, 세포 샘플, 조직 샘플 또는 개체 유래 샘플의 Ct 값이 동일하거나 이에 상응하는 기준 Ct 값인 경우, 특정 질병이 있거나 없는 것으로 확인할 수 있거나; 발병하거나 발병하지 않은 것(developing or not developing), 특정 질병이 발병할 위험이 있거나 없는 것으로 진단할 수 있거나; 특정 질병이 특정하게 진행되거나 진행되지 않는 것으로 평가할 수 있으며; 동시에 추가 테스트에 대한 제안도 제공될 수 있다.
예를 들어, 본 출원에서의 기준 수준 또는 대조 수준은 정상 수준 또는 건강 수준을 의미할 수 있다. 예를 들어, 상기 정상 수준은 질병이 없는 세포, 조직 또는 개인으로부터 유래된 샘플의 DNA 영역의 변형 수준일 수 있다. 예를 들어, 종양 평가에 사용되는 경우, 상기 정상 수준은 종양이 없는 세포, 조직 또는 개인으로부터 유래된 샘플의 DNA 영역의 변형 수준일 수 있다. 예를 들어, 췌장 종양의 평가에 사용되는 경우, 상기 정상 수준은 췌장 종양이 없는 세포, 조직 또는 개인으로부터 유래된 시료의 DNA 영역의 변형 수준일 수 있다.
예를 들어, 본 출원에서의 기준 수준은 개체 또는 샘플에서 특정 질병의 유무가 확인되는 임계값 수준을 의미할 수 있다. 예를 들어, 본 출원에서의 기준 수준은 개체가 특정 질병에 걸렸거나 발병할 위험이 있다고 진단되는 임계값 수준을 의미할 수 있다. 예를 들어, 본 출원에서의 기준 수준은 개체가 특정 질병의 특정 진행을 갖는 것으로 평가되는 임계값 수준을 의미할 수 있다. 예를 들어, 세포 샘플, 조직 샘플 또는 개체 유래 샘플 내 DNA 영역의 변형 상태가 해당 기준 수준보다 높거나 실질적으로 동일한 경우(예를 들어, 여기서 상기 기준 수준은 특정 질병이 없는 환자의 DNA 영역의 변형 상태를 의미할 수 있음), 정 질병의 존재로 확인되거나, 특정 질병이 발생하거나 발생할 위험이 있는 것으로 진단되거나, 특정 질병의 특정 진행으로 평가될 수 있다. 예를 들어, 본 출원에서 A와 B가 "실질적으로 동일하다"는 것은 A와 B의 차이가 1% 이하, 0.5% 이하, 0.1% 이하, 0.01% 이하, 0.001% 이하, 또는 0.0001% 이하인 것을 의미할 수 있다. 예를 들어, 세포 샘플, 조직 샘플 또는 개체 유래 샘플 내 DNA 영역의 변형 상태가 해당 기준 수준보다 1% 이상, 5% 이상, 10% 이상, 20% 이상, 50% 이상, 또는 1배 이상, 2배 이상, 5배 이상, 10배 이상 또는 20배 이상 높은 경우, 특정 질병의 존재로 확인될 수도 있고, 특정 질병의 발병 또는 발병 위험으로 진단될 수도 있고, 특정 질병의 특정 진행으로 평가될 수도 있다. 예를 들어, 다수의 검출 중 적어도 1번, 적어도 2번 또는 적어도 3회의 검출에서, 세포 샘플, 조직 샘플 또는 개체 유래 샘플의 DNA 영역의 변형 상태가 해당 기준 수준보다 1% 이상, 5% 이상, 10% 이상, 20% 이상, 50% 이상, 또는 1배 이상, 2배 이상, 5배 이상, 10배 이상 또는 20배 이상 높은 경우, 이는 특정 질병의 존재로 확인될 수도 있고, 특정 질병의 발병 또는 발병 위험으로 진단될 수도 있고, 특정 질병의 특정 진행으로 평가될 수도 있다.
예를 들어, 세포 샘플, 조직 샘플 또는 개체 유래 샘플의 DNA 영역의 변형 상태가 해당 기준 수준보다 낮거나 실질적으로 동일한 경우(예를 들어, 여기서 상기 기준 수준은 특정 질병을 앓고 있는 환자의 DNA 영역의 변형 상태를 의미할 수 있음), 특정 질병이 없는 것으로 확인될 수 없고, 특정 질병이 발생하거나 발생할 위험이 있다고 진단될 수 없으며, 특정 질병의 특정 진행으로 평가될 수 없다. 예를 들어, 세포 시료, 조직 시료 또는 피험자 유래 시료의 DNA 영역의 변형 상태가 해당 기준 수준보다 1% 이상, 5% 이상, 10% 이상, 20% 이상, 50% 이상, 및 100% 이상 낮은 경우, 특정 질병이 없는 것으로 확인될 수도 있고, 특정 질병의 발병 또는 발병 위험으로 진단되지 않을 수도 있고, 특정 질병의 특정 진행으로 평가되지 않을 수도 있다.
기준 수준은 원하는 민감도 및 특이성에 기초하여 당업자에 의해 선택될 수 있다. 예를 들어, 본 출원의 다양한 상황에서의 참조 수준은 당업자에 의해 쉽게 식별될 수 있다. 예를 들어, 적절한 참조 수준 및/또는 참조 수준을 획득하는 적절한 수단은 제한된 시도 횟수를 기반으로 식별될 수 있다. 예를 들어, 상기 참조 수준은 하나 이상의 참조 샘플에서 파생될 수 있으며, 여기서 참조 수준은 관심 샘플을 테스트하는 실험과 병행하여 수행된 실험에서 얻는다. 대안적으로, 상기 참조 수준은 하나 이상의 참조 샘플 또는 질병 참조 샘플의 데이터, 표준 또는 수준 모음을 포함하는 데이터베이스에서 얻을 수 있다. 일부 실시양태에서, 데이터, 표준 또는 수준의 세트는 하나 이상의 샘플로부터의 데이터와 비교될 수 있도록 표준화되거나 정규화될 수 있으며, 그에 따라 다양한 검출 조건에서 발생하는 오류를 줄이는 데 사용될 수 있다.
예를 들어, 상기 참조 수준은 예를 들어 하나 이상의 참조 샘플 및/또는 기타 실험실 및 임상 데이터의 표적 마커의 변형 수준을 포함하는 참조 데이터베이스일 수 있는 데이터베이스로부터 파생될 수 있다. 예를 들어, 건강한 개인 및/또는 해당 질병을 앓고 있지 않은 개인(즉, 질병이 없는 것으로 알려진 개인)으로부터 얻은 참조 샘플로부터 참조 수준 데이터를 집계하여 참조 데이터베이스를 구축할 수 있다. 예를 들어, 해당 질병을 치료 중인 개인으로부터 얻은 참조 시료로부터 참조 수준 데이터를 집계하여 참조 데이터베이스를 구축할 수 있다. 예를 들어, 상기 참조 데이터베이스는 질병의 다양한 단계에 있는 개인으로부터 얻은 참조 샘플의 데이터를 집계하여 구축할 수 있다. 예를 들어, 본 출원의 관심 마커의 다양한 변형 수준에 의해 다양한 단계가 입증될 수 있다. 또한, 당업자는 연령, 성별, 병력, 가족력, 증상 등의 다양한 요인에 기초하여 개인이 해당 질병을 앓고 있는지 또는 해당 질병을 앓을 위험이 있는지 여부를 결정할 수 있다.
예를 들어, 본 출원은 특정 DNA 영역 또는 이의 단편에서 변형 상태의 존재 및/또는 내용을 나타내기 위해 주기 임계값(즉, Ct 값)을 사용할 수 있다. 결정 방법은 다음과 같다: 유전자에서 선택된 각 서열의 메틸화 수준을 기준으로 점수를 계산하고 점수가 0보다 큰 경우 결과는 양성이다. 즉, 샘플에 해당하는 결과는 악성 결절(malignant nodule)일 수 있다. 하나 이상의 실시양태에서, 점수가 0 미만인 경우, 결과는 음성이며, 즉 췌장 샘플에 해당하는 결과는 양성 결절(benign nodule)일 수 있다. 예를 들어, PCR 실시양태에서, 메틸화 수준은 다음과 같이 계산될 수 있다: 메틸화 수준 = 2^(?ΔCt 테스트될 샘플)/2^(?ΔCt 양성 표준) × 100%, 여기서 ΔCt = Ct 표적 유전자 - Ct 내부 참조 유전자임. 서열분석 실시양태에서, 메틸화 수준은 다음과 같이 계산될 수 있다: 메틸화 수준 = 메틸화된 염기의 수/총 염기의 수.
예를 들어, 본 출원의 방법은 다음 단계를 포함할 수 있다: 검사할 샘플에서 핵산을 얻는 단계; DNA 영역 또는 이의 단편을 변환하는 단계; 변환 후 변형 상태를 갖는 염기에 의해 형성된 물질의 존재 및/또는 함량을 결정하는 단계.
예를 들어, 본 출원의 방법은 다음 단계를 포함할 수 있다: 검사할 샘플에서 핵산을 얻는 단계; DNA 영역 또는 이의 단편을 변환하는 단계; 검출할 샘플 내 DNA 영역 또는 이의 단편을 증폭시키는 단계; 변환 후 변형 상태를 갖는 염기에 의해 형성된 물질의 존재 및/또는 함량을 결정하는 단계.
예를 들어, 본 출원의 방법은 다음 단계를 포함할 수 있다: 검사할 샘플에서 핵산을 얻는 단계; 검체로부터 얻은 DNA를 DNA 중 비메틸화 부위와 메틸화 부위를 구별할 수 있는 시약으로 처리하여 처리된 DNA를 얻는 단계; 선택적으로 검사할 샘플의 DNA 영역 또는 이의 단편을 증폭시키는 단계; 검사할 샘플 내 처리된 DNA의 메틸화 상태의 존재 및/또는 함량을 정량적, 반정량적 또는 정성적으로 분석하는 단계; 검사할 샘플 내 처리된 DNA의 메틸화 수준을 해당 기준 수준과 비교하는 단계. 상기 검사할 샘플 내 DNA 영역의 메틸화 상태가 해당 기준 수준보다 높거나 기본적으로 동일한 경우, 특정 질병의 존재로 확인되거나, 특정 질병의 발병 또는 발병 위험으로 진단되거나, 특정 질병의 특정 진행으로 평가될 수 있다.
또 다른 측면에서, 본 출원은 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1 및/또는 EMX1를 갖는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 서열을 포함할 수 있는 핵산을 제공한다. 예를 들어, 상기 핵산은 본 출원의 임의의 프로브일 수 있다. 또 다른 측면에서, 본 출원은 상기 DNA 영역, 이의 상보적인 영역, 이의 변환된 영역, 또는 이의 단편의 변형 상태에 기초하여 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1 및/또는 EMX1를 갖는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 핵산을 설계하는 단계를 포함하는 핵산을 제조하는 방법을 제공한다. 예를 들어, 상기 핵산을 제조하는 방법은 당업계에 공지된 임의의 적합한 방법일 수 있다.
또 다른 측면에서, 본 출원은 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1을 갖는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 서열을 포함할 수 있는 핵산 조합을 제공한다. 예를 들어, 핵산 조합은 본 출원의 임의의 프라이머 조합일 수 있다. 또 다른 측면에서, 본 출원은 DNA 영역, 이의 상보적인 영역, 이의 변환된 영역, 또는 이의 단편의 변형 상태에 기초하여, 유전자 TLX2를 갖는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편을 증폭할 수 있는 핵산 조합을 설계하는 단계를 포함할 수 있는 핵산 조합의 제조 방법을 제공한다. 예를 들어, 상기 핵산 조합의 핵산을 제조하는 방법은 당업계에 공지된 임의의 적합한 방법일 수 있다. 예를 들어, 표적 폴리뉴클레오티드의 메틸화 상태는 표적 폴리뉴클레오티드와 혼성화하도록 구성된 단일 프로브 또는 프라이머를 사용하여 평가될 수 있다. 예를 들어, 표적 폴리뉴클레오티드의 메틸화 상태는 표적 폴리뉴클레오티드와 혼성화하도록 구성된 다중 프로브 또는 프라이머를 사용하여 평가될 수 있다.
또 다른 측면에서, 본 출원은 본 출원의 핵산 및/또는 본 출원의 핵산 조합을 포함할 수 있는 키트를 제공한다. 예를 들어, 본 출원의 키트는 상응하는 용도를 위한 참조 샘플을 임의로 포함할 수 있거나 상응하는 용도를 위한 참조 수준을 제공할 수 있다.
또 다른 측면에서, 본 출원의 프로브는 검출 가능한 물질을 함유할 수도 있다. 하나 이상의 실시양태에서, 검출가능한 물질은 5' 형광 리포터 및 3' 표지 소광제일 수 있다. 하나 이상의 실시양태에서, 형광 리포터 유전자는 Cy5, 텍사스 레드(Texas Red), FAM 및 VIC로부터 선택될 수 있다.
또 다른 측면에서, 본 출원의 키트는 또한 메틸화되지 않은 시토신이 구아닌에 결합하지 않는 염기로 변환되는 변환된 양성 표준을 포함할 수 있다. 하나 이상의 실시양태에서, 양성 표준은 완전히 메틸화될 수 있다.
또 다른 측면에서, 본 출원의 키트는 다음으로부터 선택된 하나 이상의 물질을 추가로 포함할 수 있다: PCR 완충액, 중합효소, dNTP, 제한 엔도뉴클레아제, 효소 소화 완충액, 형광 염료, 형광 소광제, 형광 리포터, 엑소뉴클레아제, 알칼리성 포스파타제, 내부 표준, 대조, KCl, MgCl2 및 (NH4)2SO4.
또 다른 측면에서, 본 출원에서 DNA 메틸화를 검출하는 데 사용되는 시약은 다음 방법 중 하나 이상에 사용되는 시약일 수 있다: 중아황산염(bisulfite) 변환 기반 PCR(예: 메틸화 특이적 PCR), DNA 서열 분석(예: 중아황산염 서열 분석, 전체 게놈 메틸화 서열 분석, 단순화된 메틸화 서열 분석), 메틸화 민감성 제한 엔도뉴클레아제 분석, 형광 정량, 메틸화에 민감성 고분해능 용융 곡선 분석, 칩 기반 메틸화 아틀라스 및 질량 분석법(예: 비행 질량 분석법(flight mass spectrometry)). 예를 들어, 시약은 다음 중 하나 이상에서 선택될 수 있다: 중아황산염 및 이의 유도체, 형광 염료, 형광 소광제, 형광 리포터, 내부 표준 및 대조군.
진단 방법, 준비 용도
또 다른 측면에서, 본 출원은 질병 검출 제품의 제조에 있어서 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트의 용도를 제공한다.
또 다른 측면에서, 본 출원은 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트를 제공하는 것=단계를 포함할 수 있는 질병 검출 방법을 제공한다.
또 다른 측면에서, 본 출원은 질병 검출에 사용하기 위한 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트를 제공한다.
또 다른 측면에서, 본 출원은 본 출원은 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하기 위한 물질의 제조에 있어서, 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트의 용도를 제공한다.
또 다른 측면에서, 본 출원은 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트를 제공하는 단계를 포함하는 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하는 방법을 제공한다.
또 다른 측면에서, 본 출원은 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하는 데 사용될 수 있는 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트를 제공한다.
또 다른 측면에서, 본 출원은 DNA 영역 또는 이의 단편의 변형 상태를 결정할 수 있는 물질의 제조에 있어서, 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트의 용도를 제공한다.
또 다른 측면에서, 본 출원은 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트를 제공하는 단계를 포함하는 DNA 영역 또는 이의 단편의 변형 상태를 결정하는 방법을 제공한다.
또 다른 측면에서, 본 출원은 DNA 영역 또는 이의 단편의 변형 상태를 결정하는 데 사용하기 위한, 본 출원의 핵산, 본 출원의 핵산 조합 및/또는 본 출원의 키트를 제공한다.
또 다른 측면에서, 본 출원은 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하기 위한 물질의 제조에 있어서 DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 또는 키트의 용도를 제공하며, 여기서 결정을 위한 상기 DNA 영역은 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1 또는 이의 단편을 갖는 DNA 영역을 포함할 수 있다.
또 다른 측면에서, 본 출원은 이는 핵산, 핵산 조합 및/또는 DNA 영역의 변형 상태를 결정하기 위한 키트를 제공하는 단계를 포함하는, 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하는 방법을 제공하며, 여기서 결정을 위한 상기 DNA 영역은 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1 또는 이의 단편을 갖는 DNA 영역을 포함할 수 있다.
또 다른 측면에서, 본 출원은 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하는 데 사용하기 위한, DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 및/또는 키트를 제공하며, 여기서 결정을 위한 상기 DNA 영역은 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1 또는 이의 단편을 갖는 DNA 영역을 포함할 수 있다.
또 다른 측면에서, 본 출원은 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하기 위한 물질의 제조에 있어서, DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 및/또는 키트의 용도를 제공하며, 여기서 상기 DNA 영역은 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군에서 선택되는 DNA 영역, 또는 이의 상보적 영역, 또는 이의 단편을 포함할 수 있다.
또 다른 측면에서, 본 출원은 상기 핵산, 핵산 조합 및/또는 DNA 영역의 변형 상태를 결정하기 위한 키트를 제공하는 단계를 포함하는, 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하는 방법을 제공하며, 여기서 상기 DNA 영역은 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군에서 선택되는 DNA 영역, 또는 이의 상보적 영역, 또는 이의 단편을 포함할 수 있다.
또 다른 측면에서, 본 출원은 췌장 종양의 존재 여부를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고, 및/또는 췌장 종양의 진행을 평가하는 데 사용하기 위한, DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 및/또는 키트를 제공하며, 여기서 상기 DNA 영역은 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군에서 선택되는 DNA 영역, 또는 이의 상보적 영역, 또는 이의 단편을 포함할 수 있다
또 다른 측면에서, 본 출원은 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1를 갖는 DNA 영역, 또는 그의 변환된 영역, 또는 그의 단편의 핵산; 및 상기 언급된 핵산의 조합을 제공한다.
또 다른 측면에서, 본 출원은 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하기 위한 물질의 제조에 있어서, 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1를 갖는 DNA 영역, 또는 이의 변환된 영역, 또는 이의 단편의 핵산; 및 상기 언급된 핵산의 조합의 용도를 제공한다.
또 다른 측면에서, 본 출원은 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1를 갖는 DNA 영역 또는 이의 변환된 영역, 또는 이의 단편의 핵산; 및 상기 언급된 핵산의 조합을 제공하는 단계를 포함하는, 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하는 방법을 제공한다.
또 다른 측면에서, 본 출원은 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고, 및/또는 췌장 종양의 진행을 평가하는 데 사용하기 위한, 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1를 갖는 DNA 영역 또는 이의 변환된 영역, 또는 이의 단편의 핵산; 및 상기 언급된 핵산의 조합을 제공한다.
또 다른 측면에서, 본 출원은 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군에서 선택되는 DNA 영역, 또는 그의 상보적 영역, 또는 그의 변환된 영역, 또는 그의 단편의 핵산; 및 상기 언급된 핵산의 조합을 제공한다.
또 다른 측면에서, 본 출원은 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고, 및/또는 질병의 진행을 평가하기 위한 물질의 제조에 있어서, 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군에서 선택되는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 이의 단편의 핵산; 및 상기 언급된 핵산의 조합의 용도를 제공한다.
또 다른 측면에서, 본 출원은 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군에서 선택되는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 이의 단편의 핵산; 및 상기 언급된 핵산의 조합을 제공하는 단계를 포함하는, 질병의 존재를 결정하고, 질병의 발생 또는 발병 위험을 평가하고, 및/또는 질병의 진행을 평가하는 방법을 제공한다.
또 다른 측면에서, 본 출원은 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하는 데 사용하기 위한, 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군에서 선택되는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 이의 단편의 핵산; 및 상기 언급된 핵산의 조합을 제공한다.
예를 들어, 본 출원에서 결정을 위해 사용된 DNA 영역은 EBF2 및 CCNA1이 있는 DNA 영역 또는 이의 단편으로 구성된 그룹에서 선택된 두 개의 유전자를 포함한다. 예를 들어, 이는 검사할 샘플에서 인간 chr8:25907849-25907950 및 chr13:37005635-37005754에서 유래된 DNA 영역, 이의 상보적인 영역, 또는 이의 단편으로 구성된 군에서 선택되는 두 개의 DNA 영역의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함한다.
예를 들어, 본 출원의 방법에서 표적 유전자는 KCNA6, TLX2 및 EMX1로 구성된 군에서 선택되는 2개의 유전자를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 상기 표적 유전자는 KCNA6 및 TLX2를 포함할 수 있다.
예를 들어, 본 출원의 방법에서 표적 유전자는 KCNA6 및 EMX1을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TLX2 및 EMX1을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 KCNA6, TLX2 및 EMX1로 구성된 군에서 선택되는 3개의 유전자를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 KCNA6, TLX2 및 EMX1을 포함할 수 있다. 예를 들어, 이는 검사할 샘플에서, 인간 chr12:4919142-4919289에서 유래된 DNA 영역, 인간 chr2:74743035-74743151에서 유래된 DNA 영역, 및 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군에서 선택되는 둘 이상의 DNA 영역 또는 이의 상보적인 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함한다.
예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, TWIST1, FOXD3 및 EN2로 구성된 군에서 선택되는 2개의 유전자를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58 및 TWIST1을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58 및 FOXD3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58 및 EN2를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TWIST1 및 FOXD3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 목적 유전자는 TWIST1 및 EN2를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 FOXD3 및 EN2를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 타겟 유전자는 TRIM58, TWIST1, FOXD3 및 EN2로 구성된 군에서 선택되는 3개의 유전자를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, TWIST1 및 FOXD3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, TWIST1 및 EN2를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, FOXD3 및 EN2를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TWIST1, FOXD3 및 EN2를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, TWIST1, FOXD3 및 EN2로 구성된 군에서 선택되는 4개의 유전자를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, TWIST1, FOXD3 및 EN2를 포함할 수 있다. 예를 들어, 이는 검사할 샘플에서 인간 chr1:248020592-248020779에서 유래된 DNA 영역, 인간 chr1:63788812-63788952에서 유래된 DNA 영역, 및 chr7:155167513-155167628 유래된 DNA 영역으로 구성된 군에서 선택되는 둘 이상의 DNA 영역, 이의 상보적인 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함한다.
예를 들어, 본 출원의 방법에서 타겟 유전자는 TRIM58, TWIST1, CLEC11A, HOXD10 및 OLIG3으로 구성된 군에서 선택되는 2개의 유전자를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58 및 TWIST1을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58 및 CLEC11A를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58 및 HOXD10을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TWIST1 및 CLEC11A를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TWIST1 및 HOXD10을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 목적 유전자는 TWIST1 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 CLEC11A 및 HOXD10을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 CLEC11A 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 HOXD10 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 타겟 유전자는 TRIM58, TWIST1, CLEC11A, HOXD10 및 OLIG3으로 구성된 군에서 선택되는 3개의 유전자를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, TWIST1 및 CLEC11A를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, TWIST1 및 HOXD10을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, TWIST1 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, CLEC11A 및 HOXD10을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, CLEC11A 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, HOXD10 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TWIST1, CLEC11A 및 HOXD10을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TWIST1, CLEC11A 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TWIST1, HOXD10 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 CLEC11A, HOXD10 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 타겟 유전자는 TRIM58, TWIST1, CLEC11A, HOXD10 및 OLIG3으로 구성된 군에서 선택되는 4개의 유전자를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, TWIST1, CLEC11A 및 HOXD10을 포함할 수 있다. 예를 들어, 본 출원의 방법에서, 표적 유전자는 TRIM58, TWIST1, CLEC11A 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, TWIST1, HOXD10 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, CLEC11A, HOXD10 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TWIST1, CLEC11A, HOXD10 및 OLIG3을 포함할 수 있다. 예를 들어, 본 출원의 방법에서 타겟 유전자는 TRIM58, TWIST1, CLEC11A, HOXD10 및 OLIG3으로 구성된 군에서 선택되는 5개의 유전자를 포함할 수 있다. 예를 들어, 본 출원의 방법에서 표적 유전자는 TRIM58, TWIST1, CLEC11A, HOXD10 및 OLIG3을 포함할 수 있다.
예를 들어, 이는 검사할 샘플에서, 인간 chr1:248020592-248020779에서 유래된 DNA 영역, 인간 chr7:19156739-19157277에서 유래된 DNA 영역, 인간 chr19:51228168-51228782에서 유래된 DNA 영역, 인간 chr2:176945511-176945630에서 유래된 DNA 영역, 인간 chr6:137814700-137814853에서 유래된 DNA 영역으로 구성된 군에서 선택되는 둘 이상의 DNA 영역, 이의 상보적인 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 것을 포함한다.
예를 들어, 본 출원의 핵산은 분리된 핵산을 의미할 수 있다. 예를 들어, 상기 분리된 폴리뉴클레오티드는 DNA 분자, RNA 분자, 또는 이들의 조합일 수 있다. 예를 들어, 예를 들어, 상기 DNA 분자는 게놈 DNA 분자 또는 이의 단편일 수 있다.
또한, 본 출원은 본 출원의 방법을 실행할 수 있는 프로그램을 기록한 저장 매체를 제공한다.
다른 측면에서, 본 출원은 본 출원의 저장 매체를 포함할 수 있는 장치를 제공한다. 다른 측면에서, 본 출원은 컴퓨터 프로그램이 저장되어 있는 비휘발성 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 프로그램은 본 출원의 임의의 하나 이상의 방법을 구현하기 위해 프로세서에 의해 실행된다. 예를 들어, 컴퓨터가 읽을 수 있는 비휘발성 저장 매체는 플로피 디스크, 플렉서블 디스크, 하드 디스크, 솔리드 스테이트 스토리지(solid state storage; SSS)(예를 들어, SSD(Solid State Drive), 솔리드 스테이트 카드(solid state cards; SSC), 솔리드 스테이트 모듈(SSM)), 기업용 플래시 드라이브, 자기 테이프 또는 기타 비일시적 자기 미디어 등이 있다. 상기 컴퓨터가 읽을 수 있는 비휘발성 저장 매체에는 천공 카드, 종이 테이프, 광학 마크 카드(또는 구멍 패턴이나 기타 광학적으로 식별 가능한 표시가 있는 기타 물리적 매체), 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 재기록 가능한 컴팩트 디스크(CD-RW), 디지털 다용도 디스크(DVD), 블루레이 디스크(BD) 및/또는 기타 비일시적 광학 매체도 포함될 수 있다.
예를 들어, 본 출원의 장치는 저장 매체에 결합되는 프로세서를 더 포함할 수 있고, 프로세서는 본 출원의 방법을 구현하기 위해 저장 매체에 저장된 프로그램을 기반으로 실행되도록 구성된다. 예를 들어, 상기 장치는 데이터베이스 시스템에서 실행될 때 본 출원의 방법이 올바른 결과를 생성하도록 보장하기 위해 다양한 메커니즘을 구현할 수 있다. 본 출원에서 장치는 자기 디스크를 영구 데이터 저장 장치로 사용할 수 있다. 본 출원에서 장치는 여러 데이터베이스 클라이언트에 데이터베이스 저장 및 처리 서비스를 제공할 수 있다. 상기 장치는 여러 공유 저장 장치에 걸쳐 데이터베이스 데이터를 저장할 수 있으며/또는 여러 실행 노드가 있는 하나 이상의 실행 플랫폼을 활용할 수 있다. 저장 매체와 컴퓨팅 리소스를 효과적으로 무한히 확장할 수 있도록 장치를 구성할 수 있다.
본 명세서에 기재된 "다수(Multiple)"는 임의의 정수를 의미한다. 바람직하게는, "하나 이상(more)" 중의 "더 많은(one or more)"은 예를 들어, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 30, 40, 50, 60 또는 그 이상을 포함하는, 2보다 크거나 같은 임의의 정수일 수 있다.
실시양태 1
1. 포유동물로부터 분리된 핵산 분자로서, 상기 핵산 분자는 췌장암 관련 유전자의 메틸화 마커이고, 상기 핵산 분자의 서열은 다음을 포함한다. (1) 그에 대해 적어도 70% 동일성을 갖는 다음 서열 또는 변이체 중 하나 이상 또는 모두: 서열번호 1, 서열번호 2, 서열번호 3, 서열번호 4, 서열번호 5, 서열번호 6, 서열번호 7, 서열번호 8, 서열번호 9, 서열번호 10, 서열번호 11, 서열번호 12, 서열번호 13, 서열번호 14, 서열번호 15, 서열번호 16, 서열번호 17, 서열번호 18, 서열번호 19, 서열번호 20, 서열번호 21, 서열번호 22, 서열번호 23, 서열번호 24, 서열번호 25, 서열번호 26, 서열번호 27, 서열번호 28, 서열번호 29, 서열번호 30, 서열번호 31, 서열번호 32, 서열번호 33, 서열번호 34, 서열번호 35, 서열번호 36, 서열번호 37, 서열번호 38, 서열번호 39, 서열번호 40, 서열번호 41, 서열번호 42, 서열번호 43, 서열번호 44, 서열번호 45, 서열번호 46, 서열번호 47, 서열번호 48, 서열번호 49, 서열번호 50, 서열번호 51, 서열번호 52, 서열번호 53, 서열번호 54, 서열번호 55, 서열번호 56, 여기서 변이체의 메틸화 부위는 돌연변이되지 않았음, (2) (1)의 상보적 서열, (3) 메틸화되지 않은 시토신을 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환되도록 처리된 (1) 또는 (2)의 서열,
바람직하게는, 상기 핵산 분자는 샘플 내 상응하는 서열의 DNA 메틸화 수준을 검출하기 위한 내부 표준 또는 대조군으로 사용됨.
2. DNA 메틸화 검출용 시약, 여기서 상기 시약은 검출할 대상의 시료 내 DNA 서열 또는 이의 단편의 메틸화 수준, 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 검출하기 위한 시약을 포함하고, 상기 DNA 서열은 다음 유전자 서열 중 하나 이상 또는 모두, 또는 이의 상류 또는 하류 20kb 내의 서열로부터 선택됨: DMRTA2, FOXD3, TBX15, BCAN, TRIM58, SIX3, VAX2, EMX1, LBX2, TLX2, POU3F3, TBR1, EVX2, HOXD12, HOXD8, HOXD4, TOPAZ1, SHOX2, DRD5, RPL9, HOPX, SFRP2, IRX4, TBX18, OLIG3, ULBP1, HOXA13, TBX20, IKZF1, INSIG1, SOX7, EBF2, MOS, MKX, KCNA6, SYT10, AGAP2, TBX3, CCNA1, ZIC2, CLEC14A, OTX2, C14orf39, BNC1, AHSP, ZFHX3, LHX1, TIMP2, ZNF750, SIM2,
바람직하게는, 상기 DNA 서열은 다음 서열 또는 이의 상보적 서열 중 하나 이상 또는 전부로부터 선택됨: 서열번호 1, 서열번호 2, 서열번호 3, 서열번호 4, 서열번호 5, 서열번호 6, 서열번호 7, 서열번호 8, 서열번호 9, 서열번호 10, 서열번호 11, 서열번호 12, 서열번호 13, 서열번호 14, 서열번호 15, 서열번호 16, 서열번호 17, 서열번호 18, 서열번호 19, 서열번호 20, 서열번호 21, 서열번호 22, 서열번호 23, 서열번호 24, 서열번호 25, 서열번호 26, 서열번호 27, 서열번호 28, 서열번호 29, 서열번호 30, 서열번호 31, 서열번호 32, 서열번호 33, 서열번호 34, 서열번호 35, 서열번호 36, 서열번호 37, 서열번호 38, 서열번호 39, 서열번호 40, 서열번호 41, 서열번호 42, 서열번호 43, 서열번호 44, 서열번호 45, 서열번호 46, 서열번호 47, 서열번호 48, 서열번호 49, 서열번호 50, 서열번호 51, 서열번호 52, 서열번호 53, 서열번호 54, 서열번호 55, 서열번호 56, 또는 그에 대해 적어도 70% 동일성을 갖는 변이체, 여기서 상기 변이체의 메틸화 부위는 돌연변이되지 않았음, 및/또는
상기 시약은 DNA 서열 또는 이의 단편과 혼성화하는 프라이머 분자이고, 프라이머 분자는 설파이트 처리 후에 DNA 서열 또는 이의 단편을 증폭할 수 있음, 및/또는
상기 시약은 DNA 서열 또는 그 단편과 혼성화되는 프로브 분자임.
3. DNA 서열 또는 이의 단편 및/또는 이의 메틸화 정보를 기록하는 매체, 여기서 상기 DNA 서열은 (i) 다음 유전자 서열 중 하나, 그 이상 또는 전부, 또는 그 상류 또는 하류의 20kb 내의 서열로부터 선택됨: DMRTA2, FOXD3, TBX15, BCAN, TRIM58, SIX3, VAX2, EMX1, LBX2, TLX2, POU3F3, TBR1, EVX2, HOXD12, HOXD8, HOXD4, TOPAZ1, SHOX2, DRD5, RPL9, HOPX, SFRP2, IRX4, TBX18, OLIG3, ULBP1, HOXA13, TBX20, IKZF1, INSIG1, SOX7, EBF2, MOS, MKX, KCNA6, SYT10, AGAP2, TBX3, CCNA1, ZIC2, CLEC14A, OTX2, C14orf39, BNC1, AHSP, ZFHX3, LHX1, TIMP2, ZNF750, SIM2, 또는 (ii) 비메틸화 시토신을 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환되도록 처리된 (i)의 서열,
바람직하게는,
상기 매체는 서열 또는 이의 단편을 포함하는 핵산 분자의 존재, 함량 및/또는 메틸화 수준을 결정하기 위해 유전자 메틸화 서열분석 데이터와 정렬하는 데 사용됨, 및/또는
상기 DNA 서열은 DNA의 센스 가닥 또는 안티센스 가닥을 포함함, 및/또는
상기 단편의 길이는 1-1000bp임, 및/또는
상기 DNA 서열은 다음 서열 또는 이의 상보적 서열 중 하나 이상 또는 전부로부터 선택됨: 서열번호 1, 서열번호 2, 서열번호 3, 서열번호 4, 서열번호 5, 서열번호 6, 서열번호 7, 서열번호 8, 서열번호 9, 서열번호 10, 서열번호 11, 서열번호 12, 서열번호 13, 서열번호 14, 서열번호 15, 서열번호 16, 서열번호 17, 서열번호 18, 서열번호 19, 서열번호 20, 서열번호 21, 서열번호 22, 서열번호 23, 서열번호 24, 서열번호 25, 서열번호 26, 서열번호 27, 서열번호 28, 서열번호 29, 서열번호 30, 서열번호 31, 서열번호 32, 서열번호 33, 서열번호 34, 서열번호 35, 서열번호 36, 서열번호 37, 서열번호 38, 서열번호 39, 서열번호 40, 서열번호 41, 서열번호 42, 서열번호 43, 서열번호 44, 서열번호 45, 서열번호 46, 서열번호 47, 서열번호 48, 서열번호 49, 서열번호 50, 서열번호 51, 서열번호 52, 서열번호 53, 서열번호 54, 서열번호 55, 서열번호 56, 또는 그에 대해 적어도 70% 동일성을 갖는 변이체, 여기서 상기 변이체의 메틸화 부위는 돌연변이되지 않았음,
보다 바람직하게는,
상기 매체는 DNA 서열 또는 그 단편 및/또는 그 메틸화 정보가 인쇄된 캐리어임, 및/또는
상기 매체는 상기 서열 또는 단편 및/또는 이의 메틸화 정보 및 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능 매체이고, 컴퓨터 프로그램이 프로세서에 의해 실행될 때 다음 단계가 구현됨: 샘플 내 서열 또는 이의 단편을 함유하는 핵산 분자의 존재, 함량 및/또는 메틸화 수준을 얻기 위해 샘플의 메틸화 서열분석 데이터를 이의 서열 또는 단편과 비교하는 단계, 여기서 상기 존재, 함량 및/또는 메틸화 수준은 췌장암을 진단하는 데 사용됨.
4. 개체의 췌장암 진단용 키트 제조에 있어 다음 항목 (a) 및/또는 (b)의 사용,
(a) DNA 서열 또는 이의 단편의 메틸화 수준, 또는 개체의 시료 내 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 결정하기 위한 시약 또는 장치,
(b) 메틸화되지 않은 시토신을 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환되도록 처리된 DNA 서열 또는 이의 단편의 핵산 분자,
여기서, 상기 DNA 서열은 다음 유전자 서열 중 하나, 그 이상 또는 전부, 또는 이의 상류 또는 하류 20kb 내의 서열로부터 선택됨: DMRTA2, FOXD3, TBX15, BCAN, TRIM58, SIX3, VAX2 , EMX1, LBX2, TLX2, POU3F3, TBR1, EVX2, HOXD12, HOXD8, HOXD4, TOPAZ1, SHOX2, DRD5, RPL9, HOPX, SFRP2, IRX4, TBX18, OLIG3, ULBP1, HOXA13, TBX20, IKZF1, INSIG1, SOX7, EBF2, MOS, MKX, KCNA6, SYT10, AGAP2, TBX3, CCNA1, ZIC2, CLEC14A, OTX2, C14orf39, BNC1, AHSP, ZFHX3, LHX1, TIMP2, ZNF750, SIM2,
바람직하게는, 상기 단편의 길이는 1-1000bp임.
5. DNA 서열이 하기 서열 또는 이의 상보적 서열 중 하나 이상 또는 모두로부터 선택되는, 실시양태 4의 사용: 서열번호 1, 서열번호 2, 서열번호 3, 서열번호 4, 서열번호 5, 서열번호 6, 서열번호 7, 서열번호 8, 서열번호 9, 서열번호 10, 서열번호 11, 서열번호 12, 서열번호 13, 서열번호 14, 서열번호 15, 서열번호 16, 서열번호 17, 서열번호 18, 서열번호 19, 서열번호 20, 서열번호 21, 서열번호 22, 서열번호 23, 서열번호 24, 서열번호 25, 서열번호 26, 서열번호 27, 서열번호 28, 서열번호 29, 서열번호 30, 서열번호 31, 서열번호 32, 서열번호 33, 서열번호 34, 서열번호 35, 서열번호 36, 서열번호 37, 서열번호 38, 서열번호 39, 서열번호 40, 서열번호 41, 서열번호 42, 서열번호 43, 서열번호 44, 서열번호 45, 서열번호 46, 서열번호 47, 서열번호 48, 서열번호 49, 서열번호 50, 서열번호 51, 서열번호 52, 서열번호 53, 서열번호 54, 서열번호 55, 서열번호 56, 또는 그에 대해 적어도 70% 동일성을 갖는 변이체, 여기서 상기 변이체의 메틸화 부위는 돌연변이되지 않았음,
6. 실시양태 4 또는 5의 사용, 여기서,
상기 시약은 DNA 서열 또는 이의 단편과 혼성화하는 프라이머 분자를 포함함, 및/또는
상기 시약은 DNA 서열 또는 이의 단편과 혼성화하는 프로브 분자를 포함함, 및/또는
상기 시약은 실시양태 3의 매체를 포함함.
7. 실시양태 4 또는 5의 사용, 여기서,
상기 샘플은 포유류 조직, 세포 또는 체액, 예를 들어 췌장 조직 또는 혈액에서 유래한 것임, 및/또는
상기 샘플에 게놈 DNA 또는 cfDNA가 포함되어 있음, 및/또는
상기 DNA 서열은 그 메틸화되지 않은 시토신이 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환됨, 및/또는
상기 DNA 서열은 메틸화에 민감한 제한 효소로 처리됨.
8. 실시양태 4 또는 5의 사용에 있어서, 상기 진단은 다음을 포함함:
대조 샘플 및/또는 기준 수준과의 비교 또는 계산을 통해 점수를 획득하고, 이를 토대로 췌장암을 진단하는 단계; 바람직하게는, 지원 벡터 머신 모델을 구축함으로써 계산이 수행됨.
9. 다음을 포함하는 췌장암 식별용 키트:
(a) DNA 서열 또는 이의 단편의 메틸화 수준 또는 개체의 시료 내 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 결정하기 위한 시약 또는 장치, 및
선택적으로, (b) 비메틸화 시토신을 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환되도록 처리된 DNA 서열 또는 이의 단편의 핵산 분자,
여기서, 상기 DNA 서열은 다음 유전자 서열, 또는 이의 상류 또는 하류 20kb 내의 서열 중 하나, 그 이상(예를 들어, 적어도 7개) 또는 모두로부터 선택됨: DMRTA2, FOXD3, TBX15, BCAN, TRIM58, SIX3, VAX2 , EMX1, LBX2, TLX2, POU3F3, TBR1, EVX2, HOXD12, HOXD8, HOXD4, TOPAZ1, SHOX2, DRD5, RPL9, HOPX, SFRP2, IRX4, TBX18, OLIG3, ULBP1, HOXA13, TBX20, IKZF1, INSIG1, SOX7, EBF2, MOS, MKX, KCNA6, SYT10, AGAP2, TBX3, CCNA1, ZIC2, CLEC14A, OTX2, C14orf39, BNC1, AHSP, ZFHX3, LHX1, TIMP2, ZNF750, SIM2,
바람직하게는,
상기 DNA 서열은 다음 서열 또는 이의 상보적 서열 중 하나 이상 또는 전부로부터 선택됨: 서열번호 1, 서열번호 2, 서열번호 3, 서열번호 4, 서열번호 5, 서열번호 6, 서열번호 7, 서열번호 8, 서열번호 9, 서열번호 10, 서열번호 11, 서열번호 12, 서열번호 13, 서열번호 14, 서열번호 15, 서열번호 16, 서열번호 17, 서열번호 18, 서열번호 19, 서열번호 20, 서열번호 21, 서열번호 22, 서열번호 23, 서열번호 24, 서열번호 25, 서열번호 26, 서열번호 27, 서열번호 28, 서열번호 29, 서열번호 30, 서열번호 31, 서열번호 32, 서열번호 33, 서열번호 34, 서열번호 35, 서열번호 36, 서열번호 37, 서열번호 38, 서열번호 39, 서열번호 40, 서열번호 41, 서열번호 42, 서열번호 43, 서열번호 44, 서열번호 45, 서열번호 46, 서열번호 47, 서열번호 48, 서열번호 49, 서열번호 50, 서열번호 51, 서열번호 52, 서열번호 53, 서열번호 54, 서열번호 55, 서열번호 56, 또는 그에 대해 적어도 70% 동일성을 갖는 변이체, 여기서 상기 변이체의 메틸화 부위는 돌연변이되지 않았음, 및/또는
상기 키트는 실시양태 6-8 중 어느 하나의 사용에 적합함, 및/또는
상기 시약은 상기 DNA 서열 또는 이의 단편과 혼성화하는 프라이머 분자를 포함함, 및/또는
상기 시약은 상기 DNA 서열 또는 이의 단편과 혼성화하는 프로브 분자를 포함함, 및/또는
상기 시약은 상기 실시양태 3의 매질을 포함함, 및/또는
상기 샘플은 포유류 조직, 세포 또는 체액, 예를 들어 췌장 조직 또는 혈액에서 유래한 것임, 및/또는
상기 DNA 서열은 메틸화되지 않은 시토신이 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환됨, 및/또는
DNA 서열은 메틸화에 민감한 제한 효소로 처리됨.
10. 메모리, 프로세서, 및 상기 메모리에 저장되고 상기 프로세서에서 실행 가능한 컴퓨터 프로그램을 포함하는 췌장암 진단 장치로, 상기 프로세서가 상기 프로그램을 실행하는 경우 다음 단계가 수행됨:
(1) 검출할 개체의 샘플 내 DNA 서열 또는 이의 단편의 메틸화 수준 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 획득하는 단계, 여기서 상기 DNA 서열은 다음 유전자 서열 중 하나 이상 또는 모두로부터 선택됨: DMRTA2, FOXD3, TBX15, BCAN, TRIM58, SIX3, VAX2, EMX1, LBX2, TLX2, POU3F3, TBR1, EVX2, HOXD12, HOXD8, HOXD4, TOPAZ1, SHOX2, DRD5, RPL9, HOPX, SFRP2, IRX4, TBX18, OLIG3, ULBP1, HOXA13, TBX20, IKZF1, INSIG1, SOX7, EBF2, MOS, MKX, KCNA6, SYT10, AGAP2, TBX3, CCNA1, ZIC2, CLEC14A, OTX2, C14orf39, BNC1, AHSP, ZFHX3, LHX1, TIMP2, ZNF750, SIM2,
(2) 대조 샘플 및/또는 참조 수준과 비교하거나 계산을 통해 점수를 얻는 단계, 및
(3) 상기 점수를 토대로 췌장암을 진단하는 단계,
바람직하게는,
상기 DNA 서열은 다음 서열 또는 이의 상보적 서열 중 하나 이상 또는 전부로부터 선택됨: 서열번호 1, 서열번호 2, 서열번호 3, 서열번호 4, 서열번호 5, 서열번호 6, 서열번호 7, 서열번호 8, 서열번호 9, 서열번호 10, 서열번호 11, 서열번호 12, 서열번호 13, 서열번호 14, 서열번호 15, 서열번호 16, 서열번호 17, 서열번호 18, 서열번호 19, 서열번호 20, 서열번호 21, 서열번호 22, 서열번호 23, 서열번호 24, 서열번호 25, 서열번호 26, 서열번호 27, 서열번호 28, 서열번호 29, 서열번호 30, 서열번호 31, 서열번호 32, 서열번호 33, 서열번호 34, 서열번호 35, 서열번호 36, 서열번호 37, 서열번호 38, 서열번호 39, 서열번호 40, 서열번호 41, 서열번호 42, 서열번호 43, 서열번호 44, 서열번호 45, 서열번호 46, 서열번호 47, 서열번호 48, 서열번호 49, 서열번호 50, 서열번호 51, 서열번호 52, 서열번호 53, 서열번호 54, 서열번호 55, 서열번호 56, 또는 그에 대해 적어도 70% 동일성을 갖는 변이체, 여기서 상기 변이체의 메틸화 부위는 돌연변이되지 않았음, 및/또는
상기 단계 (1)은 실시양태 1의 핵산 분자 및/또는 실시양태 2의 시약 및/또는 실시양태 3의 매체를 사용하여 샘플 내 서열의 메틸화 수준을 검출하는 것을 포함함, 및/또는
상기 샘플에 게놈 DNA 또는 cfDNA가 포함되어 있음, 및/또는
상기 DNA 서열은 메틸화되지 않은 시토신이 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환됨, 및/또는
상기 DNA 서열은 메틸화 민감성 제한 효소로 처리됨, 및/또는
상기 단계 (2)의 점수는 지원 벡터 머신 모델을 구성하여 계산됨.
실시양태 2
1. 포유동물로부터 분리된 핵산 분자, 여기서 상기 핵산 분자는 췌장암과 췌장염의 구별과 관련된 메틸화 마커이고, 상기 핵산 분자의 서열은 다음을 포함함: (1) 서열번호 57, 서열번호 58, 서열번호 59, 또는 이에 대해 적어도 70% 동일성을 갖는 변이체로 이루어진 군으로부터 선택되는 서열 중 하나 이상 또는 모두, 변이체의 메틸화 부위는 돌연변이가 되지 않았음, (2) 상기 (1)의 상보적인 서열, (3) 비메틸화 시토신을 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환되도록 처리된, 상기 (1) 또는 (2)의 서열,
바람직하게는, 상기 핵산 분자는 샘플 내 상응하는 서열의 DNA 메틸화 수준을 검출하기 위한 내부 표준 또는 대조군으로 사용됨.
2. DNA 메틸화 검출용 시약, 여기서 상기 시약은 검출할 대상의 샘플에서 DNA 서열 또는 이의 단편의 메틸화 수준, 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 검출하기 위한 시약을 포함하고, 상기 DNA 서열은 다음 유전자 서열, 또는 이의 상류 또는 하류 20kb 내의 서열 중 하나 이상 또는 모두로부터 선택됨: SIX3, TLX2, CILP2,
바람직하게는,
상기 DNA 서열은 다음 서열 또는 이의 상보적 서열 중 하나 이상 또는 전부로부터 선택됨: 서열번호 57, 서열번호 58, 서열번호 59, 또는 그에 대해 적어도 70% 동일성을 갖는 변이체, 여기서 상기 변이체의 메틸화 부위는 돌연변이되지 않았음, 및/또는
상기 시약은 DNA 서열 또는 이의 단편과 혼성화하는 프라이머 분자이고, 상기 프라이머 분자는 설파이트 처리 후에 DNA 서열 또는 이의 단편을 증폭할 수 있음, 및/또는
상기 시약은 DNA 서열 또는 그 단편과 혼성화되는 프로브 분자임.
3. DNA 서열 또는 이의 단편 및/또는 이의 메틸화 정보를 기록하는 매체, 여기서 상기 DNA 서열은 (i) 다음 유전자 서열, 또는 그 상류 또는 하류 20kb 내의 서열 중 하나 이상 또는 모두로부터 선택됨: SIX3, TLX2, CILP2, 또는 (ii) 비메틸화 시토신을 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환되도록 처리된 (i)의 서열임,
바람직하게는,
상기 매체는 서열 또는 이의 단편을 포함하는 핵산 분자의 존재, 함량 및/또는 메틸화 수준을 결정하기 위해 유전자 메틸화 서열분석 데이터와 정렬하는 데 사용됨, 및/또는
상기 DNA 서열은 DNA의 센스 가닥 또는 안티센스 가닥을 포함함, 및/또는
상기 단편의 길이는 1-1000bp임, 및/또는
상기 DNA 서열은 다음 서열 또는 이의 상보적 서열 중 하나 이상 또는 전부로부터 선택됨: 서열번호 57, 서열번호 58, 서열번호 59, 또는 그에 대해 적어도 70% 동일성을 갖는 변이체, 여기서 상기 변이체의 메틸화 부위는 돌연변이되지 않았음,
보다 바람직하게는,
상기 매체는 DNA 서열 또는 그 단편 및/또는 그 메틸화 정보가 인쇄된 캐리어임, 및/또는
상기 매체는 상기 서열 또는 단편 및/또는 이의 메틸화 정보 및 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능 매체이고, 컴퓨터 프로그램이 프로세서에 의해 실행될 때 다음 단계가 구현됨: 샘플 내 서열 또는 이의 단편을 함유하는 핵산 분자의 존재, 함량 및/또는 메틸화 수준을 얻기 위해 샘플의 메틸화 서열분석 데이터를 이의 서열 또는 단편과 비교하는 단계, 여기서 상기 존재, 함량 및/또는 메틸화 수준은 췌장암을 진단하는 데 사용됨.
4. 췌장암과 췌장염의 구별용 키트의 제작에 있어서, 다음의 (a) 및/또는 (b)의 사용,
(a) DNA 서열 또는 이의 단편의 메틸화 수준, 또는 개체의 시료 내 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 결정하기 위한 시약 또는 장치,
(b) 메틸화되지 않은 시토신을 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환되도록 처리된 DNA 서열 또는 이의 단편의 핵산 분자,
낮은 염기로 변환되도록 처리된 DNA 서열 또는 이의 단편의 핵산 분자,
여기서, DNA 서열은 하기 유전자 서열, 또는 그의 상류 또는 하류 20kb 내의 서열 중 하나 이상 또는 모두로부터 선택된다: SIX3, TLX2, CILP2,
바람직하게는, 단편의 길이는 1-1000bp임.
5. DNA 서열이 하기 서열 또는 이의 상보적 서열 중 하나 이상 또는 모두로부터 선택되는, 실시양태 4의 사용: 서열번호 57, 서열번호 58, 서열번호 59, 또는 그에 대해 적어도 70% 동일성을 갖는 변이체, 여기서 상기 변이체의 메틸화 부위는 돌연변이되지 않았음.
6. 실시양태 4 또는 5의 사용, 여기서,
상기 시약은 DNA 서열 또는 이의 단편과 혼성화하는 프라이머 분자를 포함함, 및/또는
상기 시약은 DNA 서열 또는 이의 단편과 혼성화하는 프로브 분자를 포함함, 및/또는
상기 시약은 실시양태 3의 매체를 포함함.
7. 실시양태 4 또는 5의 사용, 여기서,
상기 샘플은 포유류 조직, 세포 또는 체액, 예를 들어 췌장 조직 또는 혈액에서 유래한 것임, 및/또는
상기 샘플에 게놈 DNA 또는 cfDNA가 포함되어 있음, 및/또는
상기 DNA 서열은 그 메틸화되지 않은 시토신이 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환됨, 및/또는
상기 DNA 서열은 메틸화에 민감한 제한 효소로 처리됨.
8. 실시양태 4 또는 5의 사용에 있어서, 상기 진단은 다음을 포함함:
대조 샘플 및/또는 기준 수준과의 비교 또는 계산을 통해 점수를 획득하고, 이를 토대로 췌장암을 진단하는 단계; 바람직하게는, 지원 벡터 머신 모델을 구축함으로써 계산이 수행됨.
9. 다음을 포함하는 췌장암과 췌장염을 구별하기 위한 키트:
(a) DNA 서열 또는 이의 단편의 메틸화 수준 또는 개체의 시료 내 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 결정하기 위한 시약 또는 장치, 및
선택적으로, (b) 비메틸화 시토신을 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환되도록 처리된 DNA 서열 또는 이의 단편의 핵산 분자,
여기서, 상기 DNA 서열은 다음 유전자 서열, 또는 이의 상류 또는 하류 20kb 내의 서열 중 하나, 그 이상(예를 들어, 적어도 7개) 또는 모두로부터 선택됨: SIX3, TLX2, CILP2,
바람직하게는,
상기 DNA 서열은 다음 서열 또는 이의 상보적 서열 중 하나 이상 또는 전부로부터 선택됨: 서열번호 57, 서열번호 58, 서열번호 59, 또는 그에 대해 적어도 70% 동일성을 갖는 변이체, 여기서 상기 변이체의 메틸화 부위는 돌연변이되지 않았음, 및/또는
상기 키트는 실시양태 6-8 중 어느 하나의 사용에 적합함, 및/또는
상기 시약은 상기 DNA 서열 또는 이의 단편과 혼성화하는 프라이머 분자를 포함함, 및/또는
상기 시약은 상기 DNA 서열 또는 이의 단편과 혼성화하는 프로브 분자를 포함함, 및/또는
상기 시약은 상기 실시양태 3의 매질을 포함함, 및/또는
상기 샘플은 포유류 조직, 세포 또는 체액, 예를 들어 췌장 조직 또는 혈액에서 유래한 것임, 및/또는
상기 DNA 서열은 메틸화되지 않은 시토신이 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환됨, 및/또는
DNA 서열은 메틸화에 민감한 제한 효소로 처리됨.
10. 메모리, 프로세서, 및 상기 메모리에 저장되고 상기 프로세서에서 실행 가능한 컴퓨터 프로그램을 포함하는 췌장암 진단 장치로, 상기 프로세서가 상기 프로그램을 실행하는 경우 다음 단계가 수행됨:
(1) 검출할 개체의 샘플 내 DNA 서열 또는 이의 단편의 메틸화 수준 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 획득하는 단계, 여기서 상기 DNA 서열은 다음 유전자 서열 중 하나 이상 또는 모두로부터 선택됨: SIX3, TLX2, CILP2,
(2) 대조 샘플 및/또는 참조 수준과 비교하거나 계산을 통해 점수를 얻는 단계, 및
(3) 상기 점수를 토대로 췌장암을 진단하는 단계,
바람직하게는,
상기 DNA 서열은 다음 서열 또는 이의 상보적 서열 중 하나 이상 또는 전부로부터 선택됨: 서열번호 57, 서열번호 58, 서열번호 59, 또는 그에 대해 적어도 70% 동일성을 갖는 변이체, 여기서 상기 변이체의 메틸화 부위는 돌연변이되지 않았음, 및/또는
상기 단계 (1)은 실시양태 1의 핵산 분자 및/또는 실시양태 2의 시약 및/또는 실시양태 3의 매체를 사용하여 샘플 내 서열의 메틸화 수준을 검출하는 것을 포함함, 및/또는
상기 샘플에 게놈 DNA 또는 cfDNA가 포함되어 있음, 및/또는
상기 DNA 서열은 메틸화되지 않은 시토신이 시토신보다 구아닌에 대한 결합 능력이 더 낮은 염기로 변환됨, 및/또는
상기 DNA 서열은 메틸화 민감성 제한 효소로 처리됨, 및/또는
상기 단계 (2)의 점수는 지원 벡터 머신 모델을 구성하여 계산됨.
실시양태 3
1. 췌장 종양의 존재 및/또는 진행을 평가하는 방법으로, 상기 방법은 검사할 샘플에서 다음 DNA 영역, 이의 상보적 영역, 또는 이의 단편으로부터 선택된 DNA 영역의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함함:
2. 췌장 종양의 존재 및/또는 진행을 평가하는 방법으로, 상기 방법은 검사할 샘플 내 서열번호 60 내지 160 중 어느 하나로부터 선택된 DNA 영역, 이의 상보적 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함함.
췌장 종양의 존재 및/또는 진행을 평가하는 방법으로, 상기 방법은 검사할 샘플 내에서, 유전자 ARHGEF16, PRDM16, NFIA, ST6GALNAC5, PRRX1, LHX4, ACBD6, FMN2, CHRM3, FAM150B, TMEM18, SIX3, CAMKMT, OTX1, WDPCP, CYP26B1, DYSF, HOXD1, HOXD4, UBE2F, RAMP1, AMT, PLSCR5, ZIC4, PEX5L, ETV5, DGKG, FGF12, FGFRL1, RNF212, DOK7, HGFAC, EVC, EVC2, HMX1, CPZ, IRX1, GDNF, AGGF1, CRHBP, PITX1, CATSPER3, NEUROG1, NPM1, TLX3, NKX2-5, BNIP1, PROP1, B4GALT7, IRF4, FOXF2, FOXQ1, FOXC1, GMDS, MOCS1, LRFN2, POU3F2, FBXL4, CCR6, GPR31, TBX20, HERPUD2, VIPR2, LZTS1, NKX2-6, PENK, PRDM14, VPS13B, OSR2, NEK6, LHX2, DDIT4, DNAJB12, CRTAC1, PAX2, HIF1AN, ELOVL3, INA, HMX2, HMX3, MKI67, DPYSL4, STK32C, INS, INS-IGF2, ASCL2, PAX6, RELT, FAM168A, OPCML, ACVR1B, ACVRL1, AVPR1A, LHX5, SDSL, RAB20, COL4A2, CARKD, CARS2, SOX1, TEX29, SPACA7, SFTA3, SIX6, SIX1, INF2, TMEM179, CRIP2, MTA1, PIAS1, SKOR1, ISL2, SCAPER, POLG, RHCG, NR2F2, RAB40C, PIGQ, CPNE2, NLRC5, PSKH1, NRN1L, SRR, HIC1, HOXB9, PRAC1, SMIM5, MYO15B, TNRC6C, 9-Sep, TBCD, ZNF750, KCTD1, SALL3, CTDP1, NFATC1, ZNF554, THOP1, CACTIN, PIP5K1C, KDM4B, PLIN3, EPS15L1, KLF2, EPS8L1, PPP1R12C, NKX2-4, NKX2-2, TFAP2C, RAE1, TNFRSF6B, ARFRP1, MYH9로 구성된 군으로부터 선택된 유전자를 갖는 DNA 영역, EH는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함함.
3. 실시양태 1-2 중 어느 하나에 있어서, 검사할 샘플에서 핵산을 얻는 단계를 추가로 포함하는 방법.
4. 실시양태 3에 있어서, 상기 핵산은 무세포 핵산을 포함하는 방법.
5. 실시양태 1-4 중 어느 하나에 있어서, 상기 검사할 샘플은 조직, 세포 및/또는 체액을 포함하는 방법.
6. 실시양태 1-5 중 어느 하나에 있어서, 상기 검사할 샘플은 혈장을 포함하는 방법.
7. 실시양태 1-6 중 어느 하나에 있어서, DNA 영역 또는 이의 단편을 변환시키는 단계를 추가로 포함하는 방법.
8. 실시양태 7에 있어서, 상기 변형 상태를 갖는 염기와 변형 상태가 없는 염기가 각각 변환 후 서로 다른 물질을 형성하는 것인 방법.
9. 실시양태 7-8 중 어느 하나에 있어서, 상기 변형 상태를 갖는 염기는 변환 후 실질적으로 변하지 않고, 상기 변형 상태가 없는 염기는 변환 후 염기와 다른 다른 염기로 변경되거나 변환 후 절단되는 방법.
10. 실시양태 8-9 중 어느 하나에 있어서, 상기 염기는 시토신을 포함하는 것인 방법.
11. 실시양태 1-10 중 어느 하나에 있어서, 상기 변형 상태는 메틸화 변형을 포함하는 것인 방법.
12. 실시양태 9-11 중 어느 하나에 있어서, 상기 다른 염기는 시토신을 포함하는 것인 방법.
13. 실시양태 7-12 중 어느 하나에 있어서, 상기 변환은 탈아미노화 시약 및/또는 메틸화 민감성 제한 효소에 의한 변환을 포함하는 방법.
14. 실시양태 13에 있어서, 탈아미노화제가 중아황산염 또는 이의 유사체를 포함하는 방법.
15. 실시양태 1-14 중 어느 하나에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 방법은 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량을 결정하는 단계를 포함하는, 방법.
16. 실시양태 1-15 중 어느 하나에 있어서, 상기 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량은 서열분석에 의해 검출되는, 의 방법.
17. 실시양태 1-16 중 어느 하나에 있어서, 상기 췌장 종양의 존재 또는 진행은 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 참조 수준에 비해 DNA 영역 또는 이의 단편의 더 높은 함량의 변형 상태를 결정함으로써 결정되는 방법.
18. 실시양태 1에 따른 DNA 영역, 이의 상보적 영역, 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 서열을 포함하는 핵산.
19. 서열번호 60 내지 160 중 어느 하나에서 선택되는 DNA 영역, 이의 상보적 영역, 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 서열을 포함하는 핵산.
20. 실시양태 2에서 선택되는 유전자를 갖는 DNA 영역, 이의 상보적 영역, 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 서열을 포함하는 핵산.
21. 실시양태 18-20 중 어느 하나의 핵산을 포함하는 키트.
22. 질병 검출 제품의 제조에 있어서 실시양태 18-20 중 어느 하나의 핵산 및/또는 실시양태 21에 따른 키트의 용도.
23. 췌장 종양의 존재 및/또는 진행을 평가하기 위한 물질의 제조에 있어서, 실시양태 18-20 중 어느 하나의 핵산 및/또는 실시양태 21에 따른 키트의 용도.
24. DNA 영역 또는 이의 단편의 변형 상태를 결정하기 위한 물질의 제조에 있어서, 실시양태 18-20 중 어느 하나에 따른 핵산 및/또는 실시양태 21에 따른 키트의 용도.
25. DNA 영역, 이의 상보적인 영역, 이의 변환된 영역, 또는 이의 단편의 변형 상태에 기초하여, 실시양태 1에서 선택된 DNA 영역, 이의 상보적 영역, 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 핵산을 설계하는 단계를 포함하는, 핵산을 제조하는 방법.
26. DNA 영역, 이의 상보적인 영역, 이의 변환된 영역, 또는 이의 단편의 변형 상태에 기초하여, 서열번호 60 내지 160 중 어느 하나로부터 선택되는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 핵산을 설계하는 단계를 포함하는, 핵산을 제조하는 방법.
27. DNA 영역, 이의 상보적인 영역, 이의 변환된 영역, 또는 이의 단편의 변형 상태에 기초하여, 실시양태 2의 유전자를 갖는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 핵산을 설계하는 단계를 포함하고,핵산을 제조하는 방법.
28. 췌장 종양의 존재 및/또는 진행을 평가하기 위한 물질의 제조에서 DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 및/또는 키트의 용도, 여기서 상기 결정을 위한 DNA 영역은 실시양태 1로부터 선택된 DNA 영역의 서열, 이의 상보적 영역, 이의 변환된 영역, 또는 이의 단편을 포함함.
29. 췌장 종양의 존재 및/또는 진행을 평가하기 위한 물질의 제조에서 DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 및/또는 키트의 용도, 여기서 상기 결정을 위한 DNA 영역은 서열번호 60 내지 160 중 어느 하나로부터 선택된 DNA 영역의 서열, 이의 상보적 영역, 이의 변환된 영역, 또는 이의 단편을 포함함.
30. 췌장 종양의 존재 및/또는 진행을 평가하기 위한 물질의 제조에서 DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 및/또는 키트의 용도, 여기서 상기 결정을 위한 DNA 영역은 실시양태 2로부터 선택된 유전자를 갖는 DNA 영역의 서열, 또는 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편을 포함한다.
31. 실시양태 29-30 중 어느 하나에 있엇, 상기 변형 상태가 메틸화 변형을 포함하는 것인, 용도.
32. 실시양태 1 내지 17 중 어느 하나에 따른 방법을 실행할 수 있는 프로그램을 기록한 저장매체.
33. 실시양태 32의 저장 매체를 포함하고, 및 선택적으로 상기 저장 매체에 연결된 프로세서를 더 포함하는 장치, 여기서 상기 프로세서는 실시양태 1-17 중 어느 하나의 방법을 구현하기 위해 저장 매체에 저장된 프로그램에 기초하여 실행하도록 구성됨.
실시양태 4
1. 다음 단계를 포함하는 췌장암 진단 모델의 구축방법:
(1) 개체의 시료 내 DNA 서열 또는 이의 단편의 메틸화 수준 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준, 및 개체의 CA19-9 수준을 획득하는 단계,
(2) 메틸화 상태 또는 수준을 이용한 수학적 모델을 이용한 계산에 의해 메틸화 점수를 얻는 단계,
(3) 메틸화 점수와 CA19-9 수준을 데이터 매트릭스로 결합하는 단계,
(4) 데이터 매트릭스를 기반으로 췌장암 진단 모델을 구축하는 단계.
2. 실시양태 1에 있어서, 다음으로부터 선택된 하나 이상의 특징을 더 포함하는 방법:
상기 DNA 서열은 다음 유전자 서열, 또는 그 상류 또는 하류 20kb 내의 서열 중 하나 이상으로부터 선택됨: SIX3, TLX2, CILP2,
상기 단편은 적어도 하나의 CpG 디뉴클레오티드를 포함함,
상기 단계 (1)은 대상의 샘플에서 DNA 서열 또는 이의 단편의 메틸화 수준, 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 검출하는 단계를 포함함,
상기 샘플은 포유류 조직, 세포 또는 체액(예: 췌장 조직 또는 혈액)에서 채취한 것임,
상기 CA19-9 수준은 혈액 또는 혈장 CA19-9 수준임,
상기 단계 (2)의 수학적 모델은 지원 벡터 머신 모델임,
상기 단계 (4)의 췌장암 진단 모델은 로지스틱 회귀 모델임.
3. 다음 단계를 포함하는 췌장암 진단 모델의 구축방법.
(1) 개체의 게놈 DNA 세그먼트의 메틸화된 일배체형 분획 및 시퀀싱 깊이를 획득하는 단계,
선택적으로 (2) 메틸화된 일배체형 분획 및 시퀀싱 깊이 데이터를 사전 처리하는 단계,
(3) 특징 메틸화된 세그먼트를 얻기 위해 교차 검증 증분 특징 선택을 수행하는 단계,
(4) 메틸화 점수를 얻기 위해 특징 메틸화 세그먼트의 메틸화 검출 결과에 대한 수학적 모델을 구축하는 단계,
(5) 메틸화 점수와 해당 CA19-9 수준을 기반으로 췌장암 진단 모델을 구축하는 단계.
4. 실시양태 3에 있어서, 다음으로부터 선택된 하나 이상의 특징을 더 포함하는 방법:
단계 (1)은 다음을 포함함:
1.1) 시퀀싱 판독 데이터를 얻기 위해 대상 샘플의 DNA 메틸화를 검출하는 단계,
1.2) 어댑터 제거 및/또는 접합과 같은 시퀀싱 데이터를 선택적으로 사전 처리하는 단계,
1.3) 시퀀싱 데이터를 참조 게놈과 정렬하여 메틸화된 세그먼트의 위치 및 시퀀싱 깊이 정보를 얻는 단계.
1.4) 다음 공식에 따라 세그먼트의 메틸화 일배체형 분획(MHF)을 계산하는 단계:
여기서 i는 표적 메틸화 영역을 나타내고, h는 표적 메틸화 일배체형을 나타내고, Ni는 표적 메틸화 영역에 위치한 판독 수를 나타내고, Ni,h는 표적 메틸화 일배체형을 포함하는 판독 수를 나타냄.
단계 (2)는 다음을 포함한다: (2.1) 메틸화된 일배체형 분획과 시퀀싱 깊이 정보 데이터를 데이터 매트릭스로 결합하는 단계; 바람직하게는, 단계 (2)는 다음을 추가로 포함함: 2.2) 데이터 매트릭스에서 결측값 비율이 5~15%(예: 10%)보다 높은 사이트를 제거함, 및/또는 2.3) 깊이가 300 미만(예: 200 미만)인 각 데이터 포인트를 결측값으로 취하고 결측값을 대치하는 단계(예: K 최근접 이웃 방법 사용).
단계 (3)은 다음을 포함함: 훈련 데이터에서 교차 검증 증분 특징 선택을 수행하기 위해 수학적 모델을 사용하는 단계(여기서, 수학적 모델의 AUC를 증가시키는 DNA 세그먼트는 특징 메틸화된 세그먼트임),
단계 (5)는 다음을 포함함:메틸화 점수와 CA19-9 수준을 데이터 매트릭스로 결합하고, 데이터 매트릭스를 기반으로 췌장암 진단 모델을 구축하는 단계.
5. 실시양태 3 또는 4에 있어서, 다음으로부터 선택된 하나 이상의 특징을 더 포함하는 방법:
단계 (4)의 수학적 모델은 벡터 머신(SVM) 모델임,
단계 (4)의 메틸화 검출 결과는 메틸화된 일배체형 분획과 시퀀싱 깊이의 결합 매트릭스임,
단계 (5)의 췌장암 진단 모델은 로지스틱 회귀 모델임.
6. 췌장암 진단용 키트의 제조에 있어 DNA 메틸화 검출용 시약 또는 장치와 CA19-9 수준 검출용 시약 또는 장치의 사용, 여기서 상기 DNA 메틸화를 검출하기 위한 시약 또는 장치는 DNA 서열 또는 이의 단편의 메틸화 수준, 또는 피험자의 시료 내 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 결정하는 데 사용됨.
7. 실시예 6에 있어서, 다음으로부터 선택된 하나 이상의 특징을 더 포함하는 용도:
상기 DNA 서열은 다음 유전자 서열, 또는 그 상류 또는 하류 20kb 내의 서열 중 하나 이상으로부터 선택됨: SIX3, TLX2, CILP2,
상기 단편은 적어도 하나의 CpG 디뉴클레오티드를 포함함,
상기 DNA 메틸화 검출용 시약은 DNA 서열 또는 이의 단편과 혼성화하는 프라이머 분자를 포함하고, 상기 프라이머 분자는 아황산염 처리 후 DNA 서열 또는 이의 단편을 증폭시킬 수 있음,
상기 DNA 메틸화를 검출하기 위한 시약은 DNA 서열 또는 이의 단편과 혼성화하는 프로브 분자를 포함함,
상기 CA19-9 수준 검출용 시약은 면역반응 기반 검출시약임,
상기 키트에는 PCR 반응 시약도 포함되어 있음,
상기 키트는 또한 DNA 메틸화를 검출하기 위한 다른 시약을 포함하며, 이는 바이설파이트 변환 기반 PCR, DNA 서열 분석, 메틸화 민감성 제한 엔도뉴클레아제 분석, 형광 정량, 메틸화 민감성 고분해능 용융 곡선 분석, 칩 기반 메틸화 매핑, 질량 분석법에서 선택된 하나 이상의 방법에 사용되는 시약임,
상기 진단은 실시양태 1 내지 5 중 어느 하나의 췌장암 진단 모델을 구축하여 계산을 수행하고, 점수에 기초하여 췌장암을 진단하는 단계를 포함함.
8. 다음을 포함하는 췌장암 진단용 키트:
(a) 피험자의 시료에서 DNA 서열 또는 그 단편의 메틸화 수준 또는 DNA 서열 또는 그 단편의 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 결정하는 데 사용되는 DNA 메틸화 검출용 시약 또는 장치, 및
(b) CA19-9 수준을 검출하기 위한 시약 또는 장치.
9. 실시양태 8에 있어서, 키트가 다음으로부터 선택된 하나 이상의 특징을 추가로 포함하는 키트:
상기 DNA 서열은 다음 유전자 서열, 또는 그 상류 또는 하류 20kb 내의 서열 중 하나 이상으로부터 선택됨: SIX3, TLX2, CILP2,
상기 단편은 적어도 하나의 CpG 디뉴클레오티드를 포함함,
상기 DNA 메틸화 검출용 시약은 DNA 서열 또는 이의 단편과 혼성화하는 프라이머 분자를 포함하고, 상기 프라이머 분자는 아황산염 처리 후 DNA 서열 또는 이의 단편을 증폭시킬 수 있음,
상기 DNA 메틸화를 검출하기 위한 시약은 DNA 서열 또는 이의 단편과 혼성화하는 프로브 분자를 포함함,
상기 CA19-9 수준 검출용 시약은 면역반응 기반 검출시약임,
상기 키트에는 PCR 반응 시약도 포함되어 있음,
상기 키트는 또한 DNA 메틸화를 검출하기 위한 다른 시약을 포함하며, 이는 바이설파이트 변환 기반 PCR, DNA 서열 분석, 메틸화 민감성 제한 엔도뉴클레아제 분석, 형광 정량, 메틸화 민감성 고분해능 용융 곡선 분석, 칩 기반 메틸화 매핑, 질량 분석법에서 선택된 하나 이상의 방법에 사용되는 시약임.
10. 메모리, 프로세서, 및 메모리에 저장되고 프로세서에서 실행될 수 있는 컴퓨터 프로그램을 포함하는 췌장암 진단 또는 췌장암 진단 모델 구축 장치로, 상기 프로세서가 프로그램을 실행하는 경우 다음 단계가 구현되는 장치:
(1) 개체의 시료 내 DNA 서열 또는 이의 단편의 메틸화 수준 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준, 및 개체의 CA19-9 수준을 획득하는 단계,
(2) 메틸화 상태 또는 수준을 이용한 수학적 모델을 이용한 계산에 의해 메틸화 점수를 얻는 단계,
(3) 메틸화 점수와 CA19-9 수준을 데이터 매트릭스로 결합하는 단계,
(4) 데이터 매트릭스를 기반으로 췌장암 진단 모델을 구축하는 단계,
선택적으로 (5) 췌장암 점수를 얻는 단계; 췌장암 점수를 바탕으로 췌장암을 진단하는 단계,
또는
(1) 개체의 시료 내 DNA 서열 또는 이의 단편의 메틸화 수준 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준, 및 개체의 CA19-9 수준을 획득하는 단계 ,
(2) 메틸화 상태 또는 수준을 이용한 수학적 모델을 이용한 계산에 의해 메틸화 점수를 얻는 단계,
(3) 하기 모델에 따라 췌장암 점수를 구하고, 상기 췌장암 점수에 기초하여 췌장암을 진단하는 단계:
여기서 M은 단계 (2)에서 계산된 샘플의 메틸화 점수이고, C는 샘플의 CA19-9 수준임,
바람직하게는, 상기 장치는 다음으로부터 선택된 하나 이상의 특징을 더 포함함:
상기 DNA 서열은 다음 유전자 서열, 또는 그 상류 또는 하류 20kb 내의 서열 중 하나 이상으로부터 선택됨: SIX3, TLX2, CILP2,
상기 단편은 적어도 하나의 CpG 디뉴클레오티드를 포함함,
상기 단계 (1)은 대상의 샘플에서 DNA 서열 또는 이의 단편의 메틸화 수준, 또는 DNA 서열 또는 이의 단편 내 하나 이상의 CpG 디뉴클레오티드의 메틸화 상태 또는 수준을 검출하는 단계를 포함함,
상기 샘플은 포유류 조직, 세포 또는 체액(예: 췌장 조직 또는 혈액)에서 채취한 것임.
상기 CA19-9 수준은 혈액 또는 혈장 CA19-9 수준임,
상기 단계 (2)의 수학적 모델은 지원 벡터 머신 모델임,
상기 단계 (4)의 췌장암 진단 모델은 로지스틱 회귀 모델임.
실시양태 5
1. 췌장 종양의 존재를 결정하고, 췌장 종양의 발생 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하는 방법으로, 검사할 샘플에서 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1 및/또는 EMX1을 갖는 DNA 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
2. 췌장 종양 관련 DNA 영역의 메틸화 상태를 평가하는 방법으로, 검사할 샘플에서 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1 및/또는 EMX1를 갖는 DNA 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
3. 실시양태 1-2 중 어느 하나에 있어서, 상기 DNA 영역은 인간 chr2:74740686-74744275에서 유래, 인간 chr8:25699246-25907950에서 유래, 인간 chr12:4918342-4960278에서 유래, 인간 chr13:37005635-37017019에서 유래, 인간 chr1:63788730-63790797에서 유래 derived from 인간 chr1:248020501-248043438에서 유래, 인간 chr2:176945511-176984670에서 유래, 인간 chr6:137813336-137815531에서 유래, 인간 chr7:155167513-155257526에서 유래, 인간 chr19:51226605-51228981에서 유래, 인간 chr7:19155091-19157295에서 유래 및, 인간 chr2:73147574-73162020에서 유래된 것인 방법.
4. 실시양태 1-3 중 어느 한 실시양태에 있어서, 상기 검사할 샘플에서 핵산을 얻는 단계를 추가로 포함하는 방법.
5. 실시양태 4에 있어서, 상기 핵산은 무세포 핵산을 포함하는 방법.
6. 실시양태 1-5 중 어느 하나에 있어서, 상기 검사할 샘플은 조직, 세포 및/또는 체액을 포함하는 방법.
7. 실시예 1-6 중 어느 하나에 있어서, 상기 검사할 샘플은 혈장을 포함하는 방법.
8. 실시양태 1-7 중 어느 하나에 있어서, 상기 DNA 영역 또는 이의 단편을 변환시키는 단계를 추가로 포함하는 방법.
9. 실시양태 8에 있어서, 상기 변형 상태를 갖는 염기와 변형 상태가 없는 염기는 변환 후 서로 다른 물질을 형성하는 것인 방법.
10. 실시양태 1-9 중 어느 하나에 있어서, 상기 변형 상태를 갖는 염기는 변환 후 실질적으로 변하지 않고, 변형 상태가 없는 염기는 변환 후 염기와 다른 다른 염기로 변경되거나 변환 후 절단되는 방법.
11. 실시양태 9-10 중 어느 하나에 있어서, 상기 염기는 시토신을 포함하는 방법.
12. 실시양태 1-11 중 어느 하나에 있어서, 상기 변형 상태는 메틸화 변형을 포함하는 방법.
13. 실시양태 10-12 중 어느 하나에 있어서, 상기 다른 염기는 시토신을 포함하는 방법.
14. 실시양태 8-13 중 어느 하나에 있어서, 상기 변환은 탈아미노화 시약 및/또는 메틸화 민감성 제한 효소에 의한 변환을 포함하는 방법.
15. 실시양태 14에 있어서, 상기 탈아민화제는 중아황산염 또는 이의 유사체를 포함하는 방법.
16. 실시양태 1-15 중 어느 하나에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 방법은 변환 후 변형 상태를 갖는 염기에 의해 형성된 물질의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
17. 실시양태 1-16 중 어느 하나에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 방법은 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
18. 실시양태 1-17 중 어느 하나에 있어서, 상기 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량은 형광 PCR 방법에 의해 검출된 형광 Ct 값에 의해 결정되는 방법.
19. 실시양태 1-18 중 어느 하나에 있어서, 상기 췌장 종양의 존재, 또는 췌장 종양의 발병 또는 발병 위험은, DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 참조 수준에 비해 DNA 영역 또는 이의 단편의 변형 상태의 더 높은 함량을 결정하는 단계에 의해 결정되는 방법.
20. 실시양태 1-19 중 어느 하나에 있어서, 상기 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하기 전에 검사할 샘플에서 DNA 영역 또는 이의 단편을 증폭시키는 단계를 추가로 포함하는 방법.
21. 실시양태 20에 있어서, 상기 증폭은 PCR 증폭을 포함하는 방법.
22. 질병의 존재를 결정하고, 질병의 발생 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하는 방법으로, 검사할 샘플에서 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래, 및 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군으로부터 선택된 DNA 영역, 또는 이의 상보적 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
23. DNA 영역의 메틸화 상태를 결정하는 방법으로, 검사할 샘플에서 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래, 및 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군으로부터 선택된 DNA 영역, 또는 이의 상보적 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
24. 실시양태 22-23 중 어느 하나에 있어서, 서열번호 164, 168, 172, 176, 180, 184, 188, 192, 196, 200, 204, 208, 212, 216, 220, 224, 228, 및 232로 이루어진 군으로부터 선택되는 DNA 영역 또는 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 핵산을 제공하는 단계를 포함하는 방법.
25. 실시양태 22-24 중 어느 하나에 있어서, 인간 chr2:74743042-74743113에서 유래, 인간 chr2:74743157-74743253에서 유래, 인간 chr2:74743042-74743113에서 유래, 인간 chr2:74743157-74743253에서 유래, 인간 chr8:25907865-25907930에서 유래, 인간 chr8:25907698-25907814에서 유래, 인간 chr12:4919188-4919272에서 유래, 인간 chr12:4919036-4919164에서 유래, 인간 chr12:4919341-4919438에서 유래, 인간 chr13:37005652-37005721에서 유래, 인간 chr13:37005458-37005596에서 유래, 인간 chr13:37005694-37005824에서 유래, 인간 chr1:63788850-63788913에서 유래, 인간 chr1:248020635-248020731에서 유래, 인간 chr2:176945521-176945603에서 유래, 인간 chr6:137814750-137814815에서 유래, 인간 chr7:155167531-155167610에서 유래, 인간 chr19:51228620-51228722에서 유래, 인간 chr7:19156779-19157914에서 유래 및 인간 chr2:73147571-73147626에서 유래된 DNA 영역으로 구성된 군으로부터 선택되는 DNA 영역, 이의 상보적 영역, 또는 이의 단편에 결합할 수 있는 핵산을 제공하는 단계를 포함하는 방법.
26. 실시양태 22-25 중 어느 하나에 있어서, 서열번호 165, 169, 173, 177, 181, 185, 189, 193, 197, 201, 205, 209, 213, 217, 221, 225, 229, 및 233으로 이루어진 군으로부터 선택되는 핵산, 이의 상보적 핵산, 또는 이의 단편을 제공하는 단계를 포함하는 방법.
27. 실시양태 22-26 중 어느 하나에 있어서, 서열번호 166과 167, 서열번호 170과 171, 서열번호 174와 175, 서열번호 178과 179, 서열번호 182와 183, 서열번호 186과 187, 서열번호 190과 191, 서열번호 194와 195, 서열번호 198과 199, 서열번호 202와 203, 서열번호 206 및 207, 서열번호 210 및 211, 서열번호 214 및 215, 서열번호 218 및 219, 서열번호 222 및 223, 서열번호 226 및 227, 서열번호 230 및 231, 및 서열번호 234 및 235으로 이루어진 군으로부터 선택되는 핵산 조합, 이의 상보적 핵산 조합, 또는 이의 단편을 제공하는 단계를 포함하는 방법.
28. 실시양태 22-27 중 어느 하나에 있어서, 상기 질환은 종양을 포함하는 방법.
29. 실시양태 22-28 중 어느 하나에 있어서, 상기 검사할 샘플에서 핵산을 얻는 단계를 추가로 포함하는 방법.
30. 실시양태 29에 있어서, 상기 핵산은 무세포 핵산을 포함하는, 방법.
31. 실시양태 22-30 중 어느 하나에 있어서, 상기 검사할 샘플은 조직, 세포 및/또는 체액을 포함하는 방법.
32. 실시양태 22-31 중 어느 하나에 있어서, 상기 검사할 샘플은 혈장을 포함하는 방법.
33. 실시양태 22-32 중 어느 하나에 있어서, DNA 영역 또는 이의 단편을 변환시키는 단계를 추가로 포함하는 방법.
34. 실시양태 33에 있어서, 상기 변형 상태를 갖는 염기와 변형 상태가 없는 염기는 변환 후 서로 다른 물질을 형성하는 방법.
35. 실시양태 22-34 중 어느 하나에 있어서, 상기 변형 상태를 갖는 염기는 변환 후 실질적으로 변하지 않고, 상기 변형 상태가 없는 염기는 변환 후 염기와 다른 다른 염기로 변경되거나 변환 후 절단되는 방법.
36. 실시양태 34-35 중 어느 하나에 있어서, 상기 염기는 시토신을 포함하는 것인 의 방법.
37. 실시양태 22-36 중 어느 하나에 있어서, 상기 변형 상태는 메틸화 변형을 포함하는 것인 방법.
38. 실시양태 35-37 중 어느 하나에 있어서, 상기 다른 염기는 시토신을 포함하는 것인 방법.
39. 실시양태 33-38 중 어느 하나에 있어서, 상기 변환은 탈아미노화 시약 및/또는 메틸화 민감성 제한 효소에 의한 변환을 포함하는 방법.
40. 실시양태 39에 있어서, 상기 탈아미노화제는 중아황산염 또는 이의 유사체를 포함하는 방법.
41. 실시양태 22-40 중 어느 하나에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 방법은 변환 후 변형 상태를 갖는 염기에 의해 형성된 물질의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
42. 실시양태 22-41 중 어느 하나에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 방법은 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
43. 실시양태 22-42 중 어느 하나에 있어서, 상기 변형 상태 또는 이의 단편을 갖는 DNA 영역의 존재 및/또는 함량은 형광 PCR 방법에 의해 검출된 형광 Ct 값에 의해 결정되는 방법.
44. 실시양태 22-43 중 어느 하나에 있어서, 상기 췌장 종양의 존재, 또는 췌장 종양의 발병 또는 발병 위험은, DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 참조 수준에 비해 DNA 영역 또는 이의 단편의 변형 상태의 더 높은 함량을 결정함으로써 결정되는 단계.
45. 실시양태 22-44 중 어느 하나에 있어서, 상기 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하기 전에 검사할 샘플에서 DNA 영역 또는 이의 단편을 증폭시키는 단계를 추가로 포함하는 방법.
46. 실시양태 45에 있어서, 상기 증폭은 PCR 증폭을 포함하는 방법.
47. 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1 및/또는 EMX1를 갖는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 서열을 포함하는 핵산.
48. DNA 영역, 이의 상보적인 영역, 이의 변환된 영역, 또는 이의 단편의 변형 상태에 기초하여, 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1 및/또는 EMX1를 갖는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 핵산을 설계하는 단계를 포함하는, 핵산을 제조하는 방법.
49. 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1를 갖는 DNA 영역 또는 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 서열을 포함하는 핵산 조합.
50. DNA 영역, 이의 상보적인 영역, 이의 변환된 영역, 또는 이의 단편의 변형 상태에 기초하여, 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1, 및/또는 EMX1를 갖는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편을 증폭할 수 있는 핵산 조합을 설계하는 단계를 포함하는, 핵산 조합을 제조하는 방법,
51. 실시양태 47에 따른 핵산 및/또는 실시양태 49에 따른 핵산 조합을 포함하는 키트.
52. 질병 검출 제품의 제조에 있어 실시양태 47에 따른 핵산, 실시양태 49에 따른 핵산 조합 및/또는 실시양태 51에 따른 키트의 용도.
53. 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고 및/또는 질병의 진행을 평가하기 위한 물질의 제조에 있어서, 실시양태 47에 따른 핵산, 실시양태 49에 따른 핵산 조합 및/또는 실시양태 51에 따른 키트의 사용.
54. DNA 영역 또는 이의 단편의 변형 상태를 결정하기 위한 물질의 제조에 있어서, 실시양태 47에 따른 핵산, 실시양태 49에 따른 핵산 조합 및/또는 실시양태 51에 따른 키트의 사용.
55. 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하기 위한 물질의 제조에 있어서, DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 및/또는 키트의 용도, 여기서 상기 결정을 위한 DNA 영역은 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1 및/또는 EMX1 유전자를 갖는 DNA 영역, 또는 이의 단편을 포함함.
56. 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하기 위한 물질의 제조에 있어서, DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 및/또는 키트의 사용, 여기서, 상기 DNA 영역은 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래, 및 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군으로부터 선택되는 DNA 영역, 이의 상보적 영역, 또는 이의 단편을 포함함.
57. 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하기 위한 물질의 제조에 있어서, 유전자 TLX2, EBF2, KCNA6, CCNA1, FOXD3, TRIM58, HOXD10, OLIG3, EN2, CLEC11A, TWIST1 및/또는 EMX1를 갖는 DNA 영역, 또는 이의 변환된 영역, 또는 이의 단편의 핵산, 및 상기 언급된 핵산의 조합의 사용.
58. 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하기 위한 물질의 제조에 있어서, 인간 chr2:74743035-74743151에서 유래, 인간 chr2:74743080-74743301에서 유래, 인간 chr8:25907849-25907950에서 유래, 인간 chr8:25907698-25907894에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr12:4918991-4919187에서 유래, 인간 chr12:4919235-4919439에서 유래, 인간 chr13:37005635-37005754에서 유래, 인간 chr13:37005458-37005653에서 유래, 인간 chr13:37005680-37005904에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr7:19156739-19157277에서 유래, 및 인간 chr2:73147525-73147644에서 유래된 DNA 영역으로 구성된 군으로부터 선택되는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 이의 단편의 핵산, 및 상기 언급된 핵산의 조합의 사용.
59. 실시양태 1 내지 46 중 어느 하나에 따른 방법을 실행할 수 있는 프로그램을 기록한 저장매체.
60. 실시양태 59에 따른 저장 매체를 포함하는 장치.
61. 실시양태 60에 있어서, 저장 매체에 결합된 프로세서를 더 포함하고, 상기 프로세서는 실시양태 1-46 중 어느 하나에 따른 방법을 구현하기 위해 저장 매체에 저장된 프로그램에 기초하여 실행하도록 구성되는 장치.
실시양태 6
1. 췌장 종양의 존재를 결정하고, 췌장 종양의 발생 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하는 방법으로, 검사할 샘플에서 유전자 EBF2, CCNA1, KCNA6, TLX2, EMX1, TRIM58, TWIST1, FOXD3, EN2, TRIM58, TWIST1, CLEC11A, HOXD10, 및 OLIG3를 갖는 DNA 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
2. 췌장 종양 관련 DNA 영역의 메틸화 상태를 평가하는 방법으로, 검사할 샘플에서 유전자 BF2, CCNA1, KCNA6, TLX2, EMX1, TRIM58, TWIST1, FOXD3, EN2, TRIM58, TWIST1, CLEC11A, HOXD10, 및 OLIG3로 구성된 군에서 선택되는 2개를 갖는 DNA 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
3. 실시양태 1-2 중 어느 하나에 있어서, 상기 DNA 영역은 인간 chr8:25699246-25907950에서 유래, 인간 chr13:37005635-37017019에서 유래, 인간 chr12:4918342-4960278에서 유래, 인간 chr2:74740686-74744275에서 유래, 인간 chr2:73147574-73162020에서 유래, 인간 chr1:248020501-248043438에서 유래, 인간 chr7:19155091-19157295에서 유래, 인간 chr1:63788730-63790797에서 유래, 인간 chr7:155167513-155257526에서 유래, 인간 chr1:248020501-248043438에서 유래, 인간 chr7:19155091-19157295에서 유래, 인간 chr19:51226605-51228981에서 유래, 인간 chr2:176945511-176984670에서 유래 및 인간 chr6:137813336-137815531에서 유래된 DNA 영역으로 구성된 군에서 선택되는 2개인 것을 특징으로 하는 방법.
4. 실시양태 1-3 중 어느 한 실시양태에 있어서, 상기 검사할 샘플에서 핵산을 얻는 단계를 추가로 포함하는 방법.
5. 실시양태 4에 있어서, 상기 핵산은 무세포 핵산을 포함하는 방법.
6. 실시양태 1-5 중 어느 하나에 있어서, 상기 검사할 샘플은 조직, 세포 및/또는 체액을 포함하는 방법.
7. 실시예 1-6 중 어느 하나에 있어서, 상기 검사할 샘플은 혈장을 포함하는 방법.
8. 실시양태 1-7 중 어느 하나에 있어서, 상기 DNA 영역 또는 이의 단편을 변환시키는 단계를 추가로 포함하는 방법.
9. 실시양태 8에 있어서, 상기 변형 상태를 갖는 염기와 변형 상태가 없는 염기는 변환 후 서로 다른 물질을 형성하는 것인 방법.
10. 실시양태 1-9 중 어느 하나에 있어서, 상기 변형 상태를 갖는 염기는 변환 후 실질적으로 변하지 않고, 변형 상태가 없는 염기는 변환 후 염기와 다른 다른 염기로 변경되거나 변환 후 절단되는 방법.
11. 실시양태 9-10 중 어느 하나에 있어서, 상기 염기는 시토신을 포함하는 방법.
12. 실시양태 1-11 중 어느 하나에 있어서, 상기 변형 상태는 메틸화 변형을 포함하는 방법.
13. 실시양태 10-12 중 어느 하나에 있어서, 상기 다른 염기는 시토신을 포함하는 방법.
14. 실시양태 8-13 중 어느 하나에 있어서, 상기 변환은 탈아미노화 시약 및/또는 메틸화 민감성 제한 효소에 의한 변환을 포함하는 방법.
15. 실시양태 14에 있어서, 상기 탈아민화제는 중아황산염 또는 이의 유사체를 포함하는 방법.
16. 실시양태 1-15 중 어느 하나에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 방법은 변환 후 변형 상태를 갖는 염기에 의해 형성된 물질의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
17. 실시양태 1-16 중 어느 하나에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 방법은 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
18. 실시양태 1-17 중 어느 하나에 있어서, 상기 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량은 형광 PCR 방법에 의해 검출된 형광 Ct 값에 의해 결정되는 방법.
19. 실시양태 1-18 중 어느 하나에 있어서, 상기 췌장 종양의 존재, 또는 췌장 종양의 발병 또는 발병 위험은, DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 참조 수준에 비해 DNA 영역 또는 이의 단편의 변형 상태의 더 높은 함량을 결정하는 단계에 의해 결정되는 방법.
20. 실시양태 1-19 중 어느 하나에 있어서, 상기 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하기 전에 검사할 샘플에서 DNA 영역 또는 이의 단편을 증폭시키는 단계를 추가로 포함하는 방법.
21. 실시양태 20에 있어서, 상기 증폭은 PCR 증폭을 포함하는 방법.
22. 질병의 존재를 결정하고, 질병의 발생 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하는 방법으로, 검사할 샘플에서 인간 chr13:37005635-37005754에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr2:74743035-74743151에서 유래, 인간 chr2:73147525-73147644에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래된 DNA 영역으로 구성된 군으로부터 선택되는 2개의 DNA 영역, 또는 이의 상보적 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
23. DNA 영역의 메틸화 상태를 결정하는 방법으로, 검사할 샘플에서 인간 chr13:37005635-37005754에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr2:74743035-74743151에서 유래, 인간 chr2:73147525-73147644에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래된 DNA 영역으로 구성된 군으로부터 선택되는 2개의 DNA 영역, 또는 이의 상보적 영역, 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
24. 실시양태 22-23 중 어느 하나에 있어서, 서열번호 1 및 5로 구성된 군으로부터 선택되는 2개의 DNA 영역 또는 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 핵산을 제공하는 단계를 포함하는 방법.
25. 실시양태 22-24 중 어느 하나에 있어서, 인간 chr8:25907865-25907930에서 유래, 인간 chr13:37005652-37005721에서 유래, 인간 chr12:4919188-4919272에서 유래, 인간 chr2:74743042-74743113에서 유래, 인간 chr2:73147571-73147626에서 유래, 인간 chr1:248020635-248020731에서 유래, 인간 chr7:19156779-19157914에서 유래, 인간 chr1:63788850-63788913에서 유래, 인간 chr7:155167531-155167610에서 유래, 인간 chr1:248020635-248020731에서 유래, 인간 chr7:19156779-19157914에서 유래, 인간 chr19:51228620-51228722에서 유래, 인간 chr2:176945521-176945603에서 유래, 인간 chr6:137814750-137814815에서 유래된 DNA 영역으로 구성된 군으로부터 선택되는 2개의 DNA 영역, 이의 상보적 영역, 또는 이의 단편에 결합할 수 있는 핵산을 제공하는 단계를 포함하는 방법.
26. 실시양태 22-25 중 어느 하나에 있어서, 서열번호 173, 193, 181, 165, 233, 209, 229, 205, 221, 209, 229, 225, 213 및 217으로 이루어진 군으로부터 선택되는 2개의 핵산, 이의 상보적 핵산, 또는 이의 단편을 제공하는 단계를 포함하는 방법.
27. 실시양태 22-26 중 어느 하나에 있어서, 서열번호 174와 175, 서열번호 194와 195, 서열번호 182과 183, 서열번호 166와 167, 서열번호 234 및 235, 서열번호 210 및 211, 서열번호 230 및 231, 서열번호 206 및 207, 서열번호 222 및 223, 서열번호 210 및 211, 서열번호 230 및 231, 서열번호 226 및 227, 서열번호 214 및 215, 및 서열번호 218 및 219로 이루어진 군으로부터 선택되는 2개의 핵산 조합, 이의 상보적 핵산 조합, 또는 이의 단편을 제공하는 단계를 포함하는 방법.
28. 실시양태 22-27 중 어느 하나에 있어서, 상기 질환은 종양을 포함하는 방법.
29. 실시양태 22-28 중 어느 하나에 있어서, 상기 검사할 샘플에서 핵산을 얻는 단계를 추가로 포함하는 방법.
30. 실시양태 29에 있어서, 상기 핵산은 무세포 핵산을 포함하는, 방법.
31. 실시양태 22-30 중 어느 하나에 있어서, 상기 검사할 샘플은 조직, 세포 및/또는 체액을 포함하는 방법.
32. 실시양태 22-31 중 어느 하나에 있어서, 상기 검사할 샘플은 혈장을 포함하는 방법.
33. 실시양태 22-32 중 어느 하나에 있어서, DNA 영역 또는 이의 단편을 변환시키는 단계를 추가로 포함하는 방법.
34. 실시양태 33에 있어서, 상기 변형 상태를 갖는 염기와 변형 상태가 없는 염기는 변환 후 서로 다른 물질을 형성하는 방법.
35. 실시양태 22-34 중 어느 하나에 있어서, 상기 변형 상태를 갖는 염기는 변환 후 실질적으로 변하지 않고, 상기 변형 상태가 없는 염기는 변환 후 염기와 다른 다른 염기로 변경되거나 변환 후 절단되는 방법.
36. 실시양태 34-35 중 어느 하나에 있어서, 상기 염기는 시토신을 포함하는 것인 의 방법.
37. 실시양태 22-36 중 어느 하나에 있어서, 상기 변형 상태는 메틸화 변형을 포함하는 것인 방법.
38. 실시양태 35-37 중 어느 하나에 있어서, 상기 다른 염기는 시토신을 포함하는 것인 방법.
39. 실시양태 33-38 중 어느 하나에 있어서, 상기 변환은 탈아미노화 시약 및/또는 메틸화 민감성 제한 효소에 의한 변환을 포함하는 방법.
40. 실시양태 39에 있어서, 상기 탈아미노화제는 중아황산염 또는 이의 유사체를 포함하는 방법.
41. 실시양태 22-40 중 어느 하나에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 방법은 변환 후 변형 상태를 갖는 염기에 의해 형성된 물질의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
42. 실시양태 22-41 중 어느 하나에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 방법은 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
43. 실시양태 22-42 중 어느 하나에 있어서, 상기 변형 상태 또는 이의 단편을 갖는 DNA 영역의 존재 및/또는 함량은 형광 PCR 방법에 의해 검출된 형광 Ct 값에 의해 결정되는 방법.
44. 실시양태 22-43 중 어느 하나에 있어서, 상기 췌장 종양의 존재, 또는 췌장 종양의 발병 또는 발병 위험은, DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 참조 수준에 비해 DNA 영역 또는 이의 단편의 변형 상태의 더 높은 함량을 결정함으로써 결정되는 단계.
45. 실시양태 22-44 중 어느 하나에 있어서, 상기 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하기 전에 검사할 샘플에서 DNA 영역 또는 이의 단편을 증폭시키는 단계를 추가로 포함하는 방법.
46. 실시양태 45에 있어서, 상기 증폭은 PCR 증폭을 포함하는 방법.
47. 유전자 EBF2, CCNA1, KCNA6, TLX2, EMX1, TRIM58, TWIST1, FOXD3, EN2, TRIM58, TWIST1, CLEC11A, HOXD10, 및 OLIG3로 구성된 군에서 선택되는 2개를 갖는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 서열을 포함하는 핵산.
48. DNA 영역, 이의 상보적인 영역, 이의 변환된 영역, 또는 이의 단편의 변형 상태에 기초하여, 유전자 EBF2, CCNA1, KCNA6, TLX2, EMX1, TRIM58, TWIST1, FOXD3, EN2, TRIM58, TWIST1, CLEC11A, HOXD10, 및 OLIG3로 구성된 군에서 선택되는 2개를 갖는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 핵산을 설계하는 단계를 포함하는, 핵산을 제조하는 방법.
49. 유전자 EBF2, CCNA1, KCNA6, TLX2, EMX1, TRIM58, TWIST1, FOXD3, EN2, TRIM58, TWIST1, CLEC11A, HOXD10, 및 OLIG3로 구성된 군에서 선택되는 2개를 갖는 DNA 영역 또는 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 서열을 포함하는 핵산 조합.
50. DNA 영역, 이의 상보적인 영역, 이의 변환된 영역, 또는 이의 단편의 변형 상태에 기초하여, 유전자 EBF2, CCNA1, KCNA6, TLX2, EMX1, TRIM58, TWIST1, FOXD3, EN2, TRIM58, TWIST1, CLEC11A, HOXD10, 및 OLIG3로 구성된 군에서 선택되는 2개를 갖는 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편을 증폭할 수 있는 핵산 조합을 설계하는 단계를 포함하는, 핵산 조합을 제조하는 방법,
51. 실시양태 47에 따른 핵산 및/또는 실시양태 49에 따른 핵산 조합을 포함하는 키트.
52. 질병 검출 제품의 제조에 있어 실시양태 47에 따른 핵산, 실시양태 49에 따른 핵산 조합 및/또는 실시양태 51에 따른 키트의 용도.
53. 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고 및/또는 질병의 진행을 평가하기 위한 물질의 제조에 있어서, 실시양태 47에 따른 핵산, 실시양태 49에 따른 핵산 조합 및/또는 실시양태 51에 따른 키트의 사용.
54. DNA 영역 또는 이의 단편의 변형 상태를 결정하기 위한 물질의 제조에 있어서, 실시양태 47에 따른 핵산, 실시양태 49에 따른 핵산 조합 및/또는 실시양태 51에 따른 키트의 사용.
55. 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하기 위한 물질의 제조에 있어서, DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 및/또는 키트의 용도, 여기서 상기 결정을 위한 DNA 영역은 유전자 EBF2, CCNA1, KCNA6, TLX2, EMX1, TRIM58, TWIST1, FOXD3, EN2, TRIM58, TWIST1, CLEC11A, HOXD10, 및 OLIG3로 구성된 군에서 선택되는 2개를 갖는 DNA 영역, 또는 이의 단편을 포함함.
56. 질병의 존재를 결정하고, 질병의 발병 또는 발병 위험을 평가하고/하거나 질병의 진행을 평가하기 위한 물질의 제조에 있어서, DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 및/또는 키트의 사용, 여기서, 상기 DNA 영역은 인간 chr13:37005635-37005754에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr2:74743035-74743151에서 유래, 인간 chr2:73147525-73147644에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래된 DNA 영역으로 구성된 군으로부터 선택되는 2개의 DNA 영역, 이의 상보적 영역, 또는 이의 단편을 포함함.
57. 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하기 위한 물질의 제조에 있어서, 유전자 EBF2, CCNA1, KCNA6, TLX2, EMX1, TRIM58, TWIST1, FOXD3, EN2, TRIM58, TWIST1, CLEC11A, HOXD10, 및 OLIG3로 구성된 군에서 선택되는 2개를 갖는 DNA 영역의 핵산, 또는 이의 변환된 영역, 또는 이의 단편, 및 상기 언급된 핵산의 조합의 사용.
58. 췌장 종양의 존재를 결정하고, 췌장 종양의 발병 또는 발병 위험을 평가하고/하거나 췌장 종양의 진행을 평가하기 위한 물질의 제조에 있어서, 인간 chr13:37005635-37005754에서 유래, 인간 chr12:4919142-4919289에서 유래, 인간 chr2:74743035-74743151에서 유래, 인간 chr2:73147525-73147644에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr1:63788812-63788952에서 유래, 인간 chr7:155167513-155167628에서 유래, 인간 chr1:248020592-248020779에서 유래, 인간 chr7:19156739-19157277에서 유래, 인간 chr19:51228168-51228782에서 유래, 인간 chr2:176945511-176945630에서 유래, 인간 chr6:137814700-137814853에서 유래된 DNA 영역으로 구성된 군으로부터 선택되는 2개의 DNA 영역, 이의 상보적 영역, 또는 이의 변환된 영역, 이의 단편, 및 상기 언급된 핵산의 조합의 핵산의 사용.
59. 실시양태 1 내지 46 중 어느 하나에 따른 방법을 실행할 수 있는 프로그램을 기록한 저장매체.
60. 실시양태 59에 따른 저장 매체를 포함하는 장치.
61. 실시양태 60에 있어서, 저장 매체에 결합된 프로세서를 더 포함하고, 상기 프로세서는 실시양태 1-46 중 어느 하나에 따른 방법을 구현하기 위해 저장 매체에 저장된 프로그램에 기초하여 실행하도록 구성되는 장치.
임의의 이론에 의해 제한하려는 의도 없이, 다음 실시예는 본 출원의 방법 및 용도를 설명하기 위한 것일 뿐, 본 출원의 발명의 범위를 제한하려는 의도는 아니다.
실시예
실시예 1
1-1: 표적 메틸화 서열 분석을 통한 췌장암의 차별적인 메틸화 부위 스크리닝
발명자들은 총 94개의 췌장암 혈액 샘플과 80개의 췌장암 없는 혈액 샘플을 수집했으며, 등록된 모든 환자는 사전 동의서에 서명했다. 샘플 정보는 하기 표를 참조.
혈장 DNA의 메틸화 서열분석 데이터는 MethylTitan 분석을 통해 얻어서 그 안에 있는 메틸화 분류 마커를 확인했다. 프로세스는 다음과 같다.
1. 혈장 cfDNA 샘플 추출
Streck 혈액 수집 튜브를 사용하여 환자로부터 2 ml 전혈 샘플을 수집하고 적시에(3일 이내) 원심분리하여 혈장을 분리한 후 실험실로 운반한 후 지침에 따라 QIAGEN QIAamp 순환 핵산 키트를 사용하여 cfDNA를 추출했다.
2. 시퀀싱 및 데이터 전처리
1) 라이브러리는 Illumina Nextseq 500 시퀀서를 사용하여 페어드 엔드 시퀀싱되었다.
2) Pear(v0.6.0) 소프트웨어는 Illumina Hiseq X10/Nextseq 500/Nova seq 시퀀서의 동일한 페어드 엔드 150bp 시퀀싱 단편의 페어드 엔드 시퀀싱 데이터를 하나의 시퀀스로 결합했으며, 가장 짧은 중첩 길이는 20bp이고 결합 후 가장 짧은 길이는 30bp이다.
3) Trim_galore v 0.6.0 및 cutadapt v1.8.1 소프트웨어를 사용하여 결합된 시퀀싱 데이터에서 어댑터 제거를 수행했다. 어댑터 서열 "AGATCGGAAGAGCAC"은 서열의 5' 말단에서 제거되었으며, 양쪽 말단에서 서열분석 품질 값이 20보다 낮은 염기가 제거되었다.
3. 시퀀싱 데이터 정렬
여기에 사용된 참조 게놈 데이터는 UCSC 데이터베이스에서 가져온 것이다(UCSC: HG19, hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz).
1) 먼저 Bismark 소프트웨어를 이용하여 HG19를 시토신에서 티민(CT), 아데닌에서 구아닌(GA)으로 변환시키고, Bowtie2 소프트웨어를 이용하여 변환된 게놈에 대한 인덱스를 구축하였다.
2) 전처리된 데이터 역시 CT와 GA로 변환되었다.
3) 변환된 서열을 Bowtie2 소프트웨어를 사용하여 변환된 HG19 참조 게놈에 정렬했다. 최소 시드 시퀀스 길이는 20이었고 시드 시퀀스에는 불일치가 허용되지 않았다.
4. MHF 계산
각 타겟 영역 HG19의 CpG 사이트에 대해 위의 정렬 결과를 바탕으로 각 사이트에 해당하는 메틸화 수준을 구했다. 본 명세서의 부위의 뉴클레오티드 번호 매기기는 HG19의 뉴클레오티드 위치 번호 매기기에 해당한다. 하나의 표적 메틸화 영역은 여러 개의 메틸화 일배체형을 가질 수 있다. 이 값은 표적 지역의 각 메틸화된 일배체형에 대해 계산되어야 한다. MHF 계산식의 예는 다음과 같다.
여기서 i는 표적 메틸화 영역을 나타내고, h는 표적 메틸화 일배체형을 나타내고, Ni는 표적 메틸화 영역에 위치한 판독 수를 나타내고, Ni, h는 표적 메틸화 일배체형을 포함하는 판독 수를 나타낸다.
5. 메틸화 데이터 매트릭스
1) 훈련 세트와 테스트 세트의 각 샘플의 메틸화 시퀀싱 데이터를 데이터 매트릭스로 결합하고, 깊이가 200 미만인 각 사이트를 결측값으로 취했다.
2) 결측값 비율이 10%를 넘는 사이트는 삭제되었다.
3) 데이터 행렬의 누락된 값에 대해서는 KNN 알고리즘을 사용하여 누락된 데이터를 보간(interpolate)했다.
6. 훈련 세트 샘플 그룹을 기반으로 특징 메틸화 세그먼트 발견
1) 표현형과 관련하여 각 메틸화 세그먼트에 대해 로지스틱 회귀 모델을 구축하고 각 증폭된 표적 영역에 대해 가장 유의한 회귀 계수를 갖는 메틸화 세그먼트를 선별하여 후보 메틸화 세그먼트를 형성했다.
2) 훈련 세트는 10겹 교차 검증 증분 특징 선택을 위해 무작위로 10개 부분으로 나누어졌다.
3) 각 지역의 후보 메틸화 세그먼트를 회귀계수의 유의도에 따라 내림차순으로 순위를 정하고, 매번 하나의 메틸화 세그먼트의 데이터를 추가하여 테스트 데이터를 예측하였다.
4) 3)단계에서는 2)단계에서 생성된 데이터의 복사본 10개를 사용하였다. 각 데이터 사본에 대해 10회 계산을 수행했으며 최종 AUC는 10회 계산의 평균이었다. 훈련 데이터의 AUC가 증가하면 후보 메틸화 세그먼트는 특징 메틸화 세그먼트로 유지되고, 그렇지 않으면 폐기된다.
5) 훈련 세트의 다양한 특징 수에 따른 평균 AUC 중앙값에 해당하는 특징 조합을 특징 메틸화 세그먼트의 최종 조합으로 사용했다.
선택된 특징적인 메틸화 핵산 서열의 분포는 다음과 같다:
DMRTA2 유전자 영역의 서열번호 1, FOXD3 유전자 영역의 서열번호 2, TBX15 유전자 영역의 서열번호 3, BCAN 유전자 영역의 서열번호 4, TRIM58 유전자 영역의 서열번호 5, SIX3 유전자 영역의 서열번호 6, VAX2 유전자 영역의 서열번호 7, EMX1 유전자 영역의 서열번호 8, LBX2 유전자 영역의 서열번호 9, TLX2 유전자 영역의 서열번호 10, POU3F3 유전자 영역의 서열번호 11 및 12, TBR1 유전자 영역의 서열번호 13, EVX2 유전자 영역의 서열번호 14및 15, HOXD12 유전자 영역의 서열번호 16, HOXD8 유전자 영역의 서열번호 17, HOXD4 유전자 영역의 서열번호 18 및 19, TOPAZ1 유전자 영역의 서열번호 20, SHOX2 유전자 영역의 서열번호 21, DRD5 유전자 영역의 서열번호 22, RPL9 유전자 영역의 서열번호 23 및 24, HOPX 유전자 영역의 서열번호 25, SFRP2 유전자 영역의 서열번호 26, IRX4 유전자 영역의 서열번호 27, TBX18 유전자 영역의 서열번호 28, OLIG3 유전자 영역의 서열번호 29, ULBP1 유전자 영역의 서열번호 30, HOXA13 유전자 영역의 서열번호 31, TBX20 유전자 영역의 서열번호 32, IKZF1 유전자 영역의 서열번호 33, INSIG1 유전자 영역의 서열번호 34, SOX7 유전자 영역의 서열번호 35, EBF2 유전자 영역의 서열번호 36, MOS 유전자 영역의 서열번호 37, MKX 유전자 영역의 서열번호 38, KCNA6 유전자 영역의 서열번호 39, SYT10 유전자 영역의 서열번호 40, AGAP2 유전자 영역의 서열번호 41, TBX3 유전자 영역의 서열번호 42, CCNA1 유전자 영역의 서열번호 43, in the ZIC2 유전자 영역의 서열번호 44 및 45, CLEC14A 유전자 영역의 서열번호 46 및 47, OTX2 유전자 영역의 서열번호 48, C14orf39 유전자 영역의 서열번호 49, BNC1 유전자 영역의 서열번호 50, AHSP 유전자 영역의 서열번호 51, ZFHX3 유전자 영역의 서열번호 52, LHX1 유전자 영역의 서열번호 53, TIMP2 유전자 영역의 서열번호 54, ZNF750 유전자 영역의 서열번호 55, 및 SIM2 유전자 영역의 서열번호 56. 췌장암 환자의 cfDNA에서는 위 메틸화 마커의 수준이 증가하거나 감소했다(표 1). 상기 56개 마커 영역의 서열은 서열번호 1-56에 제시되어 있다. 각 마커 영역의 모든 CpG 부위의 메틸화 수준은 MethylTitan 서열분석을 통해 얻을 수 있다. 각 지역의 모든 CpG 부위의 평균 메틸화 수준과 단일 CpG 부위의 메틸화 수준은 모두 췌장암 진단을 위한 지표로 사용될 수 있다.
훈련 세트의 메틸화 마커의 평균 수준
서열번호 유전자 영역 CG 개수 췌장암 췌장암 없음
서열번호 1 DMRTA2 68 0.805118 0.846704212
서열번호 2 FOXD3 66 0.533626 0.631423118
서열번호 3 TBX15 49 0.46269 0.598647228
서열번호 4 BCAN 51 0.895958 0.93205906
서열번호 5 TRIM58 75 0.781674 0.885116786
서열번호 6 SIX3 42 0.47867 0.530648758
서열번호 7 VAX2 49 0.754202 0.822800234
서열번호 8 EMX1 52 0.031272 0.015568518
서열번호 9 LBX2 50 0.804002 0.888596008
서열번호 10 TLX2 65 0.094431 0.046327063
서열번호 11 POU3F3 41 0.742934 0.79432709
서열번호 12 POU3F3 43 0.873117 0.907378674
서열번호 13 TBR1 66 0.83205 0.881520895
서열번호 14 EVX2 66 0.867162 0.914658287
서열번호 15 EVX2 48 0.189907 0.134652946
서열번호 16 HOXD12 54 0.528523 0.59532531
서열번호 17 HOXD8 71 0.081469 0.04359926
서열번호 18 HOXD4 33 0.874582 0.916354164
서열번호 19 HOXD4 34 0.922386 0.947447638
서열번호 20 TOPAZ1 39 0.814131 0.887701025
서열번호 21 SHOX2 48 0.579209 0.670680638
서열번호 22 DRD5 53 0.896517 0.933959939
서열번호 23 RPL9 47 0.335709 0.189887387
서열번호 24 RPL9 53 0.255473 0.114913562
서열번호 25 HOPX 33 0.867922 0.92600206
서열번호 26 SFRP2 31 0.874256 0.91995393
서열번호 27 IRX4 43 0.895035 0.936693651
서열번호 28 TBX18 25 0.842926 0.890887017
서열번호 29 OLIG3 54 0.505465 0.58611049
서열번호 30 ULBP1 62 0.96065 0.986061614
서열번호 31 HOXA13 48 0.849438 0.901184354
서열번호 32 TBX20 58 0.853916 0.919348754
서열번호 33 IKZF1 89 0.002234 7.42E-06
서열번호 34 INSIG1 58 0.778164 0.834092757
서열번호 35 SOX7 33 0.762759 0.833374722
서열번호 36 EBF2 35 0.006304 0.001619493
서열번호 37 MOS 56 0.041915 0.028504837
서열번호 38 MKX 59 0.945305 0.967669383
서열번호 39 KCNA6 54 0.91901 0.955657579
서열번호 40 SYT10 55 0.876289 0.911901265
서열번호 41 AGAP2 49 0.71894 0.789339811
서열번호 42 TBX3 35 0.591944 0.704717363
서열번호 43 CCNA1 51 0.051066 0.025112299
서열번호 44 ZIC2 48 0.371048 0.456316055
서열번호 45 ZIC2 47 0.74489 0.82642923
서열번호 46 CLEC14A 48 0.79031 0.870664251
서열번호 47 CLEC14A 51 0.903921 0.953341879
서열번호 48 OTX2 47 0.811418 0.861958339
서열번호 49 C14orf39 50 0.824815 0.919119502
서열번호 50 BNC1 64 0.939319 0.969846657
서열번호 51 AHSP 28 0.669693 0.78221847
서열번호 52 ZFHX3 46 0.269205 0.155691343
서열번호 53 LHX1 55 0.814173 0.894836486
서열번호 54 TIMP2 13 0.734619 0.782587252
서열번호 55 ZNF750 22 0.643534 0.809896825
서열번호 56 SIM2 47 0.861297 0.915016312
테스트 세트에서 췌장암 환자와 췌장암이 없는 사람의 메틸화 마커의 메틸화 수준은 표 2에 나와 있다. 표에서 볼 수 있듯이, 선택된 메틸화 마커의 분포는 췌장암 환자와 췌장암이 없는 환자 사이에서 유의미한 차이를 보여 좋은 구별 효과를 나타냈다.
테스트 세트의 메틸화 마커의 메틸화 수준
서열번호 유전자 영역 CG 개수 췌장암 Without pancreatic cancer
서열번호 1 DMRTA2 68 0.80821 0.841562
서열번호 2 FOXD3 66 0.532689 0.608005
서열번호 3 TBX15 49 0.456977 0.583602
서열번호 4 BCAN 51 0.886301 0.928237
서열번호 5 TRIM58 75 0.757257 0.865708
서열번호 6 SIX3 42 0.45768 0.507013
서열번호 7 VAX2 49 0.743388 0.823884
서열번호 8 EMX1 52 0.057218 0.018418
서열번호 9 LBX2 50 0.802808 0.886972
서열번호 10 TLX2 65 0.121389 0.052678
서열번호 11 POU3F3 41 0.729466 0.786569
서열번호 12 POU3F3 43 0.854963 0.902213
서열번호 13 TBR1 66 0.818731 0.883992
서열번호 14 EVX2 66 0.85586 0.911954
서열번호 15 EVX2 48 0.194409 0.145985
서열번호 16 HOXD12 54 0.464472 0.504838
서열번호 17 HOXD8 71 0.103311 0.053572
서열번호 18 HOXD4 33 0.856557 0.905414
서열번호 19 HOXD4 34 0.910568 0.940956
서열번호 20 TOPAZ1 39 0.789318 0.900009
서열번호 21 SHOX2 48 0.588091 0.644361
서열번호 22 DRD5 53 0.876745 0.929319
서열번호 23 RPL9 47 0.324825 0.185376
서열번호 24 RPL9 53 0.282492 0.11378
서열번호 25 HOPX 33 0.866604 0.916437
서열번호 26 SFRP2 31 0.85147 0.911779
서열번호 27 IRX4 43 0.872813 0.924474
서열번호 28 TBX18 25 0.831686 0.891538
서열번호 29 OLIG3 54 0.508308 0.582988
서열번호 30 ULBP1 62 0.94355 0.980948
서열번호 31 HOXA13 48 0.841288 0.893729
서열번호 32 TBX20 58 0.829121 0.914558
서열번호 33 IKZF1 89 0.017736 8.01E-06
서열번호 34 INSIG1 58 0.774911 0.832428
서열번호 35 SOX7 33 0.751425 0.808935
서열번호 36 EBF2 35 0.015764 0.004153
서열번호 37 MOS 56 0.068217 0.028952
서열번호 38 MKX 59 0.906794 0.960283
서열번호 39 KCNA6 54 0.897371 0.940083
서열번호 40 SYT10 55 0.862951 0.913739
서열번호 41 AGAP2 49 0.710999 0.776851
서열번호 42 TBX3 35 0.609331 0.704816
서열번호 43 CCNA1 51 0.065936 0.026731
서열번호 44 ZIC2 48 0.352573 0.434612
서열번호 45 ZIC2 47 0.736551 0.814384
서열번호 46 CLEC14A 48 0.767731 0.874676
서열번호 47 CLEC14A 51 0.869351 0.943006
서열번호 48 OTX2 47 0.784839 0.845296
서열번호 49 C14orf39 50 0.815521 0.908652
서열번호 50 BNC1 64 0.918581 0.965099
서열번호 51 AHSP 28 0.647706 0.764136
서열번호 52 ZFHX3 46 0.298317 0.155255
서열번호 53 LHX1 55 0.791322 0.862229
서열번호 54 TIMP2 13 0.71954 0.77554
서열번호 55 ZNF750 22 0.650884 0.763429
서열번호 56 SIM2 47 0.876345 0.867791
표 3에는 10개의 무작위 CpG 부위 또는 이들의 조합의 메틸화 수준과 각 선택된 마커의 전체 마커의 메틸화 수준 사이의 상관관계(피어슨 상관 계수) 및 해당 유의성 p 값이 나열되어 있다. 마커 내 단일 CpG 부위의 메틸화 수준 또는 여러 CpG 부위의 조합이 전체 영역의 메틸화 수준과 유의한 상관관계를 갖고(p<0.05), 상관계수는 모두 0.8 이상임을 알 수 있다. 이러한 강력하거나 매우 강한 상관관계는 마커 내 단일 CpG 부위 또는 여러 CpG 부위의 조합이 전체 마커와 동일한 우수한 차별화 효과를 가짐을 나타낸다.
무작위 CpG 부위 또는 여러 부위의 조합의 메틸화 수준과 56개 마커의 전체 마커의 메틸화 수준 사이의 상관관계
CpG 부위 및 조합 서열번호 훈련 세트 상관관계 훈련 세트 p-값 테스트 세트 상관관계 테스트 세트 p-값
염색체 1:50884902 서열번호 1 0.8337 1.74E-16 0.8493 1.71E-14
염색체 1:50884924 서열번호 1 0.8111 8.72E-16 0.8316 1.16E-14
염색체 1:50884889 서열번호 1 0.8119 2.08E-15 0.8376 2.59E-13
염색체 1:50884939 서열번호 1 0.8042 2.59E-12 0.8433 4.14E-14
염색체 1:50884942,50884945 서열번호 1 0.8083 2.87E-12 0.8212 3.54E-13
염색체 1:50884945 서열번호 1 0.8172 5.01E-12 0.813 6.46E-14
염색체 1:50884942 서열번호 1 0.8232 4.55E-11 0.8085 5.16E-14
염색체 1:50884948 서열번호 1 0.8129 5.90E-11 0.8067 4.09E-14
염색체 1:50884885 서열번호 1 0.8221 2.96E-10 0.8447 4.30E-13
염색체 1:50884942,50884945,50884948 서열번호 1 0.8262 3.18E-10 0.8241 8.06E-14
염색체 1:63788861 서열번호 2 0.837 2.27E-36 0.848 5.00E-19
염색체 1:63788852 서열번호 2 0.8116 4.06E-26 0.809 9.86E-14
염색체 1:63788881 서열번호 2 0.8103 1.19E-24 0.8357 1.74E-08
염색체 1:63788902 서열번호 2 0.8443 5.41E-24 0.8186 1.13E-06
염색체 1:63788897 서열번호 2 0.8345 1.55E-23 0.8283 1.03E-07
염색체 1:63788852,63788861 서열번호 2 0.8175 2.28E-23 0.8103 1.55E-09
염색체 1:63788849 서열번호 2 0.8365 3.39E-21 0.8341 4.06E-12
염색체 1:63788849,63788852 서열번호 2 0.8297 4.10E-20 0.8437 1.01E-07
염색체 1:63788906 서열번호 2 0.8486 5.08E-20 0.807 2.72E-08
염색체 1:63788902,63788906 서열번호 2 0.8018 1.80E-19 0.8349 3.71E-04
염색체 1:119522449 서열번호 3 0.8397 2.04E-30 0.8345 1.45E-12
염색체 1:119522456 서열번호 3 0.8267 6.67E-27 0.8392 1.15E-11
염색체 1:119522446 서열번호 3 0.8279 2.56E-25 0.8072 8.45E-11
염색체 1:119522451 서열번호 3 0.8342 3.68E-25 0.8403 3.93E-11
염색체 1:119522469 서열번호 3 0.8197 9.72E-25 0.8162 7.31E-10
염색체 1:119522459 서열번호 3 0.8103 1.80E-24 0.8081 1.14E-11
염색체 1:119522474 서열번호 3 0.8103 1.82E-24 0.8218 8.44E-10
염색체 1:119522464 서열번호 3 0.8116 1.35E-22 0.8239 2.62E-10
염색체 1:119522440 서열번호 3 0.8233 1.45E-22 0.8269 5.94E-14
염색체 1:119522449,119522451 서열번호 3 0.8062 5.93E-22 0.8129 2.49E-09
염색체 1:156611960 서열번호 4 0.8047 5.13E-35 0.811 0.00E+00
염색체 1:156611963 서열번호 4 0.9205 9.82E-56 0.9079 1.81E-25
염색체 1:156611960,156611963 서열번호 4 0.9146 9.68E-54 0.8855 1.21E-22
염색체 1:156611951,156611960 서열번호 4 0.8968 1.40E-48 0.8803 4.44E-22
염색체 1:156611951 서열번호 4 0.8947 4.96E-48 0.9058 3.54E-25
염색체 1:156611951,156611960,156611963 서열번호 4 0.8504 1.27E-38 0.8339 6.55E-18
염색체 1:156611949,156611951 서열번호 4 0.8226 1.54E-28 0.8231 4.01E-17
염색체 1:156611949 서열번호 4 0.8381 3.01E-28 0.8553 1.19E-19
염색체 1:156611949,156611951,156611960 서열번호 4 0.841 2.87E-23 0.805 6.41E-16
염색체 1:156611949,156611951,156611960,156611963 서열번호 4 0.8126 1.38E-19 0.8231 2.37E-15
염색체 1:248020641 서열번호 5 0.8433 2.07E-37 0.8449 8.91E-19
염색체 1:248020795 서열번호 5 0.8163 2.89E-33 0.8342 2.27E-15
염색체 1:248020798 서열번호 5 0.8032 1.72E-31 0.802 9.91E-16
염색체 1:248020812 서열번호 5 0.8318 2.33E-23 0.8215 3.65E-11
염색체 1:248020795,248020798 서열번호 5 0.8238 1.20E-21 0.8329 2.63E-09
염색체 1:248020713 서열번호 5 0.8027 5.61E-19 0.8178 1.47E-11
염색체 1:248020704 서열번호 5 0.8356 4.74E-18 0.8199 2.26E-11
염색체 1:248020791 서열번호 5 0.8403 2.59E-17 0.8142 3.38E-10
염색체 1:248020625 서열번호 5 0.8015 2.24E-16 0.8414 1.38E-10
염색체 1:248020680 서열번호 5 0.8011 4.58E-15 0.8166 8.80E-10
염색체 2:45029071 서열번호 6 0.8419 1.55E-27 0.8046 4.38E-09
염색체 2:45029060 서열번호 6 0.819 6.20E-26 0.8111 1.23E-08
염색체 2:45029046 서열번호 6 0.8438 2.66E-25 0.8008 1.49E-08
염색체 2:45029065 서열번호 6 0.8173 8.08E-18 0.8319 2.69E-06
염색체 2:45029117 서열번호 6 0.8091 4.47E-17 0.8253 1.12E-06
염색체 2:45029063 서열번호 6 0.8465 9.60E-17 0.835 2.15E-06
염색체 2:45029057,45029060 서열번호 6 0.8186 4.38E-15 0.8065 0.00E+00
염색체 2:45029057 서열번호 6 0.833 9.57E-15 0.8167 1.05E-05
염색체 2:45029128 서열번호 6 0.8228 8.73E-13 0.8306 2.19E-05
염색체 2:45029046,45029057 서열번호 6 0.8335 5.11E-11 0.8165 0.00E+00
염색체 2:71115978 서열번호 7 0.8404 6.29E-37 0.8494 3.85E-19
염색체 2:71115987 서열번호 7 0.8316 1.60E-35 0.8498 3.56E-19
염색체 2:71115981 서열번호 7 0.8287 1.76E-27 0.8092 3.45E-16
염색체 2:71116000 서열번호 7 0.8342 1.99E-27 0.8302 2.02E-15
염색체 2:71115968 서열번호 7 0.8192 1.47E-26 0.8079 4.19E-16
염색체 2:71115985 서열번호 7 0.8387 1.21E-25 0.8282 3.39E-14
염색체 2:71116022 서열번호 7 0.8353 1.19E-22 0.8308 2.75E-11
염색체 2:71115983 서열번호 7 0.8264 1.19E-21 0.8056 5.85E-16
염색체 2:71115968,71115978 서열번호 7 0.8036 3.89E-21 0.8274 4.74E-12
염색체 2:71115994 서열번호 7 0.8139 5.07E-20 0.8238 3.45E-14
염색체 2:73147584 서열번호 8 0.835 2.51E-35 0.8334 0.00E+00
염색체 2:73147582 서열번호 8 0.8802 1.49E-44 0.9863 5.17E-51
염색체 2:73147607 서열번호 8 0.8538 3.08E-39 0.9223 1.07E-27
염색체 2:73147607,73147613 서열번호 8 0.8464 6.25E-38 0.9759 2.40E-43
염색체 2:73147613 서열번호 8 0.837 2.28E-36 0.925 3.61E-28
염색체 2:73147620 서열번호 8 0.8367 2.53E-36 0.905 4.60E-25
염색체 2:73147595 서열번호 8 0.8293 3.67E-35 0.9313 2.48E-29
염색체 2:73147582,73147584 서열번호 8 0.8279 5.81E-35 0.9879 1.04E-52
염색체 2:73147598 서열번호 8 0.8259 1.20E-34 0.9729 8.72E-42
염색체 2:73147584,73147592 서열번호 8 0.8138 6.48E-33 0.9861 8.76E-51
염색체 2:74726651 서열번호 9 0.9766 6.36E-90 0.9717 3.36E-41
염색체 2:74726668 서열번호 9 0.9534 1.56E-70 0.9149 1.67E-26
염색체 2:74726672 서열번호 9 0.9446 1.03E-65 0.954 1.12E-34
염색체 2:74726649,74726651 서열번호 9 0.9427 8.46E-65 0.9449 3.02E-32
염색체 2:74726656 서열번호 9 0.9413 3.94E-64 0.9444 3.98E-32
염색체 2:74726651,74726656 서열번호 9 0.9384 8.66E-63 0.9291 6.61E-29
염색체 2:74726672,74726682 서열번호 9 0.9377 1.90E-62 0.9338 8.09E-30
염색체 2:74726649 서열번호 9 0.9366 5.86E-62 0.954 1.13E-34
염색체 2:74726642 서열번호 9 0.9335 1.22E-60 0.9191 3.56E-27
염색체 2:74726668,74726672 서열번호 9 0.9314 8.48E-60 0.9108 6.77E-26
염색체 2:74743111 서열번호 10 0.8464 8.16E-35 0.8414 0.00E+00
염색체 2:74743131 서열번호 10 0.8696 2.83E-42 0.9152 1.49E-26
염색체 2:74743127,74743131 서열번호 10 0.8591 3.28E-40 0.9283 9.24E-29
염색체 2:74743064 서열번호 10 0.8546 2.17E-39 0.9405 3.14E-31
염색체 2:74743119 서열번호 10 0.8485 2.63E-38 0.9168 8.50E-27
염색체 2:74743127 서열번호 10 0.8432 2.14E-37 0.9434 6.90E-32
염색체 2:74743056 서열번호 10 0.8406 5.88E-37 0.947 8.94E-33
염색체 2:74743061 서열번호 10 0.8371 2.19E-36 0.9509 8.50E-34
염색체 2:74743059 서열번호 10 0.8276 6.58E-35 0.931 2.81E-29
염색체 2:74743073 서열번호 10 0.8047 1.09E-31 0.9394 5.52E-31
염색체 2:105480412 서열번호 11 0.8259 1.18E-34 0.8496 3.68E-19
염색체 2:105480407 서열번호 11 0.8206 7.19E-34 0.8548 1.32E-19
염색체 2:105480438 서열번호 11 0.8096 2.43E-32 0.854 1.56E-19
염색체 2:105480429 서열번호 11 0.8089 3.02E-32 0.8686 6.99E-21
염색체 2:105480426 서열번호 11 0.8068 5.75E-32 0.8546 1.38E-19
염색체 2:105480424 서열번호 11 0.8033 1.38E-28 0.843 1.27E-18
염색체 2:105480409 서열번호 11 0.8222 3.64E-27 0.8172 1.02E-16
염색체 2:105480475 서열번호 11 0.8173 2.57E-25 0.8265 6.91E-15
염색체 2:105480464 서열번호 11 0.8484 2.03E-23 0.829 1.50E-17
염색체 2:105480433 서열번호 11 0.8371 9.95E-23 0.8155 1.32E-16
염색체 2:105480407 서열번호 12 0.9695 1.64E-82 0.9917 6.89E-58
염색체 2:105480409 서열번호 12 0.8362 3.06E-36 0.9529 2.31E-34
염색체 2:105480407,105480409 서열번호 12 0.8451 5.10E-25 0.9287 7.84E-29
염색체 2:105480412 서열번호 12 0.8338 6.49E-24 0.9375 1.39E-30
염색체 2:105480438 서열번호 12 0.8264 4.70E-23 0.9062 3.13E-25
염색체 2:105480429 서열번호 12 0.8311 2.11E-22 0.9062 3.14E-25
염색체 2:105480426 서열번호 12 0.8272 1.48E-21 0.9188 3.94E-27
염색체 2:105480424 서열번호 12 0.823 7.44E-20 0.9301 4.33E-29
염색체 2:105480464 서열번호 12 0.8185 1.55E-17 0.8884 5.65E-23
염색체 2:105480424,105480426 서열번호 12 0.8039 2.95E-17 0.8973 4.71E-24
염색체 2:162280483 서열번호 13 0.8973 1.05E-48 0.9383 9.64E-31
염색체 2:162280473,162280479 서열번호 13 0.8561 1.16E-39 0.8037 1.68E-15
염색체 2:162280486 서열번호 13 0.8489 2.29E-38 0.9176 6.28E-27
염색체 2:162280473 서열번호 13 0.835 4.74E-36 0.8071 4.72E-16
염색체 2:162280489 서열번호 13 0.8065 6.42E-32 0.8075 1.28E-14
염색체 2:162280470,162280473 서열번호 13 0.8033 1.68E-31 0.8084 3.88E-16
염색체 2:162280466 서열번호 13 0.8026 2.07E-31 0.8181 2.21E-11
염색체 2:162280479,162280483 서열번호 13 0.8018 1.07E-28 0.8532 1.83E-19
염색체 2:162280466,162280470,162280473 서열번호 13 0.8173 3.49E-28 0.8389 2.89E-13
염색체 2:162280470,162280473,162280479 서열번호 13 0.8496 1.50E-25 0.8185 2.60E-11
염색체 2:176945351 서열번호 14 0.9438 2.53E-65 0.9569 1.54E-35
염색체 2:176945378 서열번호 14 0.8655 1.83E-41 0.8682 7.63E-21
염색체 2:176945345 서열번호 14 0.8107 1.74E-32 0.9234 6.82E-28
염색체 2:176945417 서열번호 14 0.8075 4.68E-32 0.8774 9.21E-22
염색체 2:176945384 서열번호 14 0.834 1.19E-29 0.8904 3.29E-23
염색체 2:176945339 서열번호 14 0.8009 1.92E-27 0.926 2.36E-28
염색체 2:176945387 서열번호 14 0.8458 1.67E-26 0.8907 2.99E-23
염색체 2:176945347 서열번호 14 0.842 4.59E-23 0.8426 1.37E-18
염색체 2:176945381 서열번호 14 0.8404 3.79E-21 0.8908 2.90E-23
염색체 2:176945402 서열번호 14 0.8048 5.19E-21 0.81 3.05E-16
염색체 2:176945570 서열번호 15 0.8219 4.70E-35 0.8147 0.00E+00
염색체 2:176945570,176945580 서열번호 15 0.8746 2.54E-43 0.9319 1.93E-29
염색체 2:176945580,176945582,176945585 서열번호 15 0.8343 6.03E-36 0.8858 1.11E-22
염색체 2:176945580,176945582 서열번호 15 0.828 5.62E-35 0.8715 3.61E-21
염색체 2:176945570,176945580,176945582 서열번호 15 0.827 8.07E-35 0.8764 1.15E-21
염색체 2:176945580 서열번호 15 0.8167 2.52E-33 0.841 1.84E-18
염색체 2:176945570,176945580,176945582,176945585 서열번호 15 0.8466 7.91E-31 0.8447 9.25E-19
염색체 2:176945582,176945585 서열번호 15 0.8346 1.98E-30 0.857 8.48E-20
염색체 2:176945582 서열번호 15 0.8438 1.50E-23 0.8105 2.16E-14
염색체 2:176945580,176945582,176945585,176945604 서열번호 15 0.8106 1.82E-18 0.8275 8.74E-14
염색체 2:176964886 서열번호 16 0.8473 7.99E-30 0.8212 9.81E-05
염색체 2:176964879 서열번호 16 0.8468 1.31E-21 0.8092 7.05E-04
염색체 2:176964869 서열번호 16 0.8319 8.28E-17 0.8273 4.94E-05
염색체 2:176964930 서열번호 16 0.8487 2.16E-15 0.8066 4.56E-04
염색체 2:176964879,176964886 서열번호 16 0.8046 1.48E-14 0.8108 5.60E-04
염색체 2:176964946 서열번호 16 0.8426 4.86E-13 0.8418 2.03E-07
염색체 2:176964865,176964869 서열번호 16 0.844 1.32E-09 0.816 3.92E-05
염색체 2:176964892 서열번호 16 0.8474 7.17E-09 0.8438 1.15E-04
염색체 2:176964865 서열번호 16 0.8064 7.19E-09 0.8325 2.40E-04
염색체 2:176964875 서열번호 16 0.8031 1.09E-08 0.8161 1.03E-04
염색체 2:176994764 서열번호 17 0.8461 4.24E-35 0.8481 0.00E+00
염색체 2:176994778 서열번호 17 0.9055 5.61E-51 0.9532 1.95E-34
염색체 2:176994768 서열번호 17 0.885 1.17E-45 0.9502 1.34E-33
염색체 2:176994773 서열번호 17 0.8747 2.36E-43 0.9378 1.20E-30
염색체 2:176994764,176994768 서열번호 17 0.8639 3.94E-41 0.9608 8.57E-37
염색체 2:176994783 서열번호 17 0.8617 1.01E-40 0.9402 3.57E-31
염색체 2:176994773,176994778 서열번호 17 0.8396 8.64E-37 0.9483 4.10E-33
염색체 2:176994801 서열번호 17 0.8386 1.26E-36 0.9378 1.21E-30
염색체 2:176994753 서열번호 17 0.833 9.68E-36 0.9413 2.07E-31
염색체 2:176994780 서열번호 17 0.8328 1.03E-35 0.9326 1.42E-29
염색체 2:177017270 서열번호 18 0.8589 3.54E-40 0.8044 1.84E-15
염색체 2:177017251 서열번호 18 0.8533 3.74E-39 0.8822 2.77E-22
염색체 2:177017227 서열번호 18 0.8349 4.93E-36 0.8232 3.94E-17
염색체 2:177017211 서열번호 18 0.8091 5.45E-30 0.8285 1.63E-17
염색체 2:177017223 서열번호 18 0.8479 3.46E-28 0.8066 4.05E-15
염색체 2:177017237 서열번호 18 0.8174 1.08E-23 0.825 6.17E-14
염색체 2:177017182 서열번호 18 0.8304 1.85E-23 0.8294 1.41E-17
염색체 2:177017267 서열번호 18 0.8091 2.43E-23 0.8159 1.24E-16
염색체 2:177017225 서열번호 18 0.8122 3.51E-23 0.8229 1.82E-14
염색체 2:177017193 서열번호 18 0.8108 3.95E-23 0.85 3.38E-19
염색체 2:177024605 서열번호 19 0.9473 4.09E-67 0.977 5.05E-44
염색체 2:177024616 서열번호 19 0.9265 7.10E-58 0.9782 1.07E-44
염색체 2:177024616,177024619 서열번호 19 0.8312 1.85E-35 0.9392 5.92E-31
염색체 2:177024619 서열번호 19 0.828 5.64E-35 0.9007 1.71E-24
염색체 2:177024605,177024616 서열번호 19 0.8132 8.01E-33 0.9286 8.23E-29
염색체 2:177024582 서열번호 19 0.8341 8.23E-27 0.8987 3.09E-24
염색체 2:177024619,177024634 서열번호 19 0.8268 1.03E-26 0.8698 5.41E-21
염색체 2:177024634 서열번호 19 0.8253 1.08E-26 0.8971 5.04E-24
염색체 2:177024605,177024616,177024619 서열번호 19 0.8129 1.47E-26 0.9082 1.64E-25
염색체 2:177024616,177024619,177024634 서열번호 19 0.8445 1.56E-24 0.8694 5.87E-21
염색체 3:44063649 서열번호 20 0.8406 5.75E-37 0.9235 6.57E-28
염색체 3:44063643 서열번호 20 0.8251 1.57E-34 0.915 1.61E-26
염색체 3:44063657 서열번호 20 0.8021 2.41E-31 0.9362 2.66E-30
염색체 3:44063649,44063657 서열번호 20 0.8289 4.32E-24 0.8761 1.25E-21
염색체 3:44063620 서열번호 20 0.8081 6.73E-24 0.9039 6.44E-25
염색체 3:44063638 서열번호 20 0.8175 3.91E-23 0.8853 1.26E-22
염색체 3:44063662 서열번호 20 0.8251 1.45E-21 0.8944 1.08E-23
염색체 3:44063660 서열번호 20 0.819 4.27E-21 0.8988 3.02E-24
염색체 3:44063633 서열번호 20 0.8085 4.95E-21 0.8829 2.33E-22
염색체 3:44063643,44063649 서열번호 20 0.8367 2.45E-17 0.8645 1.73E-20
염색체 3:157812329 서열번호 21 0.8386 2.52E-18 0.8051 1.33E-10
염색체 3:157812312 서열번호 21 0.8224 2.37E-15 0.8208 7.45E-10
염색체 3:157812420 서열번호 21 0.839 8.24E-15 0.8032 1.63E-06
염색체 3:157812302 서열번호 21 0.8398 4.06E-14 0.835 3.10E-10
염색체 3:157812287 서열번호 21 0.8387 8.08E-14 0.8265 4.17E-07
염색체 3:157812287,157812294 서열번호 21 0.8149 5.54E-13 0.8323 3.54E-07
염색체 3:157812294 서열번호 21 0.8004 7.72E-13 0.8411 4.38E-08
염색체 3:157812331 서열번호 21 0.8129 8.96E-13 0.8411 7.32E-05
염색체 3:157812321 서열번호 21 0.8473 2.53E-12 0.8445 6.68E-07
염색체 3:157812354 서열번호 21 0.813 1.71E-11 0.8432 1.49E-07
염색체 4:9783277 서열번호 22 0.918 7.14E-55 0.9515 6.06E-34
염색체 4:9783275 서열번호 22 0.8167 2.58E-33 0.8782 7.43E-22
염색체 4:9783275,9783277 서열번호 22 0.8452 2.47E-22 0.8113 2.53E-16
염색체 4:9783271 서열번호 22 0.805 1.04E-20 0.8335 3.92E-12
염색체 4:9783196 서열번호 22 0.8424 2.49E-19 0.8129 3.06E-11
염색체 4:9783198 서열번호 22 0.8422 1.49E-18 0.8218 5.58E-12
염색체 4:9783196,9783198 서열번호 22 0.8345 2.59E-16 0.8348 5.24E-10
염색체 4:9783192,9783196 서열번호 22 0.8171 4.38E-15 0.8197 2.27E-08
염색체 4:9783192 서열번호 22 0.8408 5.23E-15 0.8473 2.81E-14
염색체 4:9783271,9783275 서열번호 22 0.8386 1.59E-13 0.8269 2.31E-11
염색체 4:39448528 서열번호 23 0.819 4.60E-35 0.8194 0.00E+00
염색체 4:39448524,39448528 서열번호 23 0.9942 7.77E-130 0.9953 1.37E-65
염색체 4:39448516,39448524,39448528 서열번호 23 0.9929 7.90E-124 0.9936 2.40E-61
염색체 4:39448503,39448516,39448524,39448528 서열번호 23 0.9904 2.13E-115 0.991 8.31E-57
염색체 4:39448528,39448549 서열번호 23 0.9881 4.27E-109 0.9889 7.25E-54
염색체 4:39448524,39448528,39448549 서열번호 23 0.9809 9.85E-96 0.9837 1.19E-48
염색체 4:39448516,39448524,39448528,39448549 서열번호 23 0.9795 1.07E-93 0.9825 1.10E-47
염색체 4:39448503,39448516,39448524,39448528,39448549 서열번호 23 0.9777 2.63E-91 0.9802 4.64E-46
염색체 4:39448528,39448549,39448551 서열번호 23 0.9759 3.87E-89 0.978 1.35E-44
염색체 4:39448524,39448528,39448549,39448551 서열번호 23 0.9705 1.95E-83 0.9736 3.87E-42
염색체 4:39448577,39448586,39448593,39448613,39448625,39448629 서열번호 24 0.8091 5.75E-35 0.8303 0.00E+00
염색체 4:39448586,39448593,39448613,39448625,39448629 서열번호 24 0.9808 1.40E-95 0.9986 4.17E-82
염색체 4:39448577,39448586,39448593,39448613,39448625,39448629,39448633 서열번호 24 0.9747 9.17E-88 0.9863 5.57E-51
염색체 4:39448593,39448613,39448625,39448629 서열번호 24 0.9671 2.30E-80 0.9888 9.14E-54
염색체 4:39448575,39448577,39448586,39448593,39448613,39448625,39448629 서열번호 24 0.962 2.83E-76 0.985 8.75E-50
염색체 4:39448613,39448625,39448629 서열번호 24 0.9589 4.52E-74 0.9857 2.12E-50
염색체 4:39448586,39448593,39448613,39448625,39448629,39448633 서열번호 24 0.9542 5.15E-71 0.9864 4.30E-51
염색체 4:39448577,39448586,39448593,39448613,39448625 서열번호 24 0.9529 2.88E-70 0.9562 2.57E-35
염색체 4:39448568,39448575,39448577,39448586,39448593,39448613,39448625,39448629 서열번호 24 0.9488 5.95E-68 0.9639 6.25E-38
염색체 4:39448562,39448568,39448575,39448577,39448586,39448593,39448613,39448625,39448629 서열번호 24 0.948 1.71E-67 0.9605 1.03E-36
염색체 4:57521377 서열번호 25 0.8304 1.06E-21 0.8178 5.25E-15
염색체 4:57521426 서열번호 25 0.8238 2.07E-11 0.8105 1.27E-10
염색체 4:57521397 서열번호 25 0.821 3.03E-08 0.8414 4.31E-10
염색체 4:57521449 서열번호 25 0.8209 4.85E-08 0.8339 2.85E-07
염색체 4:57521419 서열번호 25 0.8053 1.71E-06 0.8014 3.95E-06
염색체 4:57521442 서열번호 25 0.8163 6.04E-06 0.8445 1.62E-06
염색체 4:57521486 서열번호 25 0.8352 1.27E-05 0.8277 4.69E-10
염색체 4:57521377,57521397 서열번호 25 0.8296 9.12E-04 0.8116 1.85E-05
염색체 4:57521419,57521426 서열번호 25 0.8029 4.37E-03 0.8369 6.96E-05
염색체 4:57521411 서열번호 25 0.8256 6.65E-03 0.8387 3.68E-07
염색체 4:154709612 서열번호 26 0.9702 4.26E-83 0.9669 4.49E-39
염색체 4:154709617 서열번호 26 0.8684 4.94E-42 0.9316 2.21E-29
염색체 4:154709597 서열번호 26 0.8389 4.47E-26 0.8837 1.92E-22
염색체 4:154709640 서열번호 26 0.8377 1.27E-22 0.9118 4.91E-26
염색체 4:154709607,154709612 서열번호 26 0.8271 2.45E-19 0.8481 4.88E-19
염색체 4:154709612,154709617 서열번호 26 0.8264 1.55E-18 0.8642 1.86E-20
염색체 4:154709607 서열번호 26 0.8336 2.90E-18 0.8988 3.01E-24
염색체 4:154709633 서열번호 26 0.8079 2.05E-17 0.9103 8.10E-26
염색체 4:154709633,154709640 서열번호 26 0.8235 5.60E-14 0.8883 5.70E-23
염색체 4:154709591,154709597 서열번호 26 0.801 2.27E-10 0.8369 3.84E-18
염색체 5:1876386 서열번호 27 0.9552 1.11E-71 0.9455 2.17E-32
염색체 5:1876395 서열번호 27 0.8444 1.33E-37 0.9291 6.54E-29
염색체 5:1876403 서열번호 27 0.8408 5.41E-37 0.8748 1.70E-21
염색체 5:1876386,1876395 서열번호 27 0.8019 2.56E-31 0.8487 4.38E-19
염색체 5:1876374 서열번호 27 0.8469 3.85E-25 0.8666 1.10E-20
염색체 5:1876399 서열번호 27 0.8148 9.64E-25 0.8672 9.67E-21
염색체 5:1876399,1876403 서열번호 27 0.8277 1.74E-24 0.8288 1.55E-17
염색체 5:1876395,1876397 서열번호 27 0.8413 1.84E-21 0.8434 1.19E-18
염색체 5:1876374,1876386 서열번호 27 0.8343 3.60E-21 0.8243 3.27E-17
염색체 5:1876397 서열번호 27 0.8216 1.15E-19 0.8662 1.19E-20
염색체 6:85477166 서열번호 28 0.818 9.55E-35 0.801 0.00E+00
염색체 6:85477153,85477166 서열번호 28 0.8241 3.01E-26 0.8431 1.25E-18
염색체 6:85477166,85477175 서열번호 28 0.8143 1.54E-24 0.8607 3.91E-20
염색체 6:85477175 서열번호 28 0.8053 2.32E-19 0.8404 3.85E-11
염색체 6:85477151,85477153 서열번호 28 0.8257 1.25E-17 0.8003 1.77E-11
염색체 6:85477151 서열번호 28 0.8356 7.34E-17 0.8122 5.81E-12
염색체 6:85477153 서열번호 28 0.8421 1.05E-16 0.8234 3.78E-17
염색체 6:85477166,85477175,85477186 서열번호 28 0.8355 1.84E-13 0.8289 3.86E-11
염색체 6:85477153,85477166,85477175 서열번호 28 0.8479 4.38E-13 0.819 4.82E-14
염색체 6:85477151,85477153,85477166 서열번호 28 0.8462 5.49E-13 0.8205 5.98E-11
염색체 6:137814749 서열번호 29 0.8498 1.02E-20 0.8182 1.26E-07
염색체 6:137814707 서열번호 29 0.8464 5.21E-16 0.8261 4.89E-08
염색체 6:137814723 서열번호 29 0.8293 2.38E-13 0.8341 1.21E-05
염색체 6:137814695 서열번호 29 0.8242 3.32E-13 0.8046 1.70E-05
염색체 6:137814710 서열번호 29 0.8243 1.42E-12 0.8299 2.58E-08
염색체 6:137814744 서열번호 29 0.8373 2.38E-12 0.8052 6.23E-06
염색체 6:137814695,137814707 서열번호 29 0.8218 5.53E-12 0.8083 1.35E-03
염색체 6:137814728 서열번호 29 0.8448 3.24E-11 0.8007 1.11E-06
염색체 6:137814746 서열번호 29 0.8054 3.79E-11 0.8071 8.99E-06
염색체 6:137814768 서열번호 29 0.8003 1.62E-10 0.826 6.88E-07
염색체 6:150285844 서열번호 30 0.8418 9.43E-35 0.8008 0.00E+00
염색체 6:150285844,150285860 서열번호 30 0.8541 2.67E-39 0.9523 3.59E-34
염색체 6:150285860 서열번호 30 0.8046 1.29E-30 0.9326 1.42E-29
염색체 6:150285892,150285901 서열번호 30 0.8351 3.76E-24 0.9591 3.01E-36
염색체 6:150285892 서열번호 30 0.8468 6.17E-24 0.8748 1.68E-21
염색체 6:150285910 서열번호 30 0.8072 6.77E-22 0.843 1.29E-18
염색체 6:150285901 서열번호 30 0.8314 3.71E-21 0.9015 1.33E-24
염색체 6:150285890 서열번호 30 0.8153 5.49E-20 0.9506 1.06E-33
염색체 6:150285901,150285908,150285910 서열번호 30 0.8131 1.51E-19 0.9066 2.70E-25
염색체 6:150285826 서열번호 30 0.8449 1.80E-18 0.8821 2.84E-22
염색체 7:27244787 서열번호 31 0.9224 2.11E-56 0.8562 9.82E-20
염색체 7:27244780 서열번호 31 0.8637 4.27E-41 0.8759 1.29E-21
염색체 7:27244772 서열번호 31 0.8397 8.09E-37 0.8375 3.46E-18
염색체 7:27244780,27244787 서열번호 31 0.8254 2.82E-26 0.8451 3.17E-12
염색체 7:27244787,27244789 서열번호 31 0.8103 1.34E-20 0.8346 1.34E-07
염색체 7:27244789 서열번호 31 0.8343 2.54E-20 0.8263 1.00E-08
염색체 7:27244755 서열번호 31 0.8131 3.59E-18 0.8459 5.05E-10
염색체 7:27244772,27244780 서열번호 31 0.8319 6.91E-18 0.8154 8.11E-10
염색체 7:27244723,27244755 서열번호 31 0.8209 1.34E-17 0.8367 4.73E-07
염색체 7:27244714,27244723,27244755 서열번호 31 0.8066 1.27E-14 0.839 1.69E-07
염색체 7:35293685 서열번호 32 0.9193 2.67E-55 0.909 1.23E-25
염색체 7:35293700 서열번호 32 0.9182 6.30E-55 0.8654 1.42E-20
염색체 7:35293692 서열번호 32 0.9172 1.33E-54 0.8831 2.24E-22
염색체 7:35293690 서열번호 32 0.8708 1.59E-42 0.8339 6.50E-18
염색체 7:35293676 서열번호 32 0.8694 3.00E-42 0.8183 8.57E-17
염색체 7:35293687 서열번호 32 0.868 5.79E-42 0.8478 5.18E-19
염색체 7:35293670 서열번호 32 0.8544 2.42E-39 0.8261 2.46E-17
염색체 7:35293652 서열번호 32 0.8532 3.88E-39 0.8291 1.48E-17
염색체 7:35293692,35293700 서열번호 32 0.8245 1.51E-30 0.814 1.72E-12
염색체 7:35293656 서열번호 32 0.8233 2.27E-28 0.8216 5.62E-13
염색체 7:50343850,50343853,50343858,50343864,50343869,50343872,50343883,50343890 서열번호 33 0.9899 5.41E-114 0.9882 4.23E-53
염색체 7:50343853,50343858,50343864,50343869,50343872,50343883,50343890,50343897,50343907 서열번호 33 0.9899 5.41E-114 0.9361 2.80E-30
염색체 7:50343853,50343858,50343864,50343869,50343872,50343883,50343890,50343897,50343907,50343909 서열번호 33 0.9899 5.41E-114 0.9361 2.80E-30
염색체 7:50343858,50343864,50343869,50343872,50343883,50343890,50343897,50343907 서열번호 33 0.9899 5.41E-114 0.9361 2.80E-30
염색체 7:50343858,50343864,50343869,50343872,50343883,50343890,50343897,50343907,50343909 서열번호 33 0.9899 5.41E-114 0.9361 2.80E-30
염색체 7:50343869,50343872,50343883,50343890,50343897,50343907 서열번호 33 0.9899 5.41E-114 0.9361 2.80E-30
염색체 7:50343869,50343872,50343883,50343890,50343897,50343907,50343909 서열번호 33 0.9899 5.41E-114 0.9361 2.80E-30
염색체 7:50343872,50343883,50343890,50343897,50343907 서열번호 33 0.9899 5.41E-114 0.9361 2.80E-30
염색체 7:50343872,50343883,50343890,50343897,50343907,50343909 서열번호 33 0.9899 5.41E-114 0.9361 2.80E-30
염색체 7:50343939,50343946,50343950,50343959,50343961,50343963,50343969,50343974,50343980,50343990 서열번호 33 0.9899 5.41E-114 0.9906 3.61E-56
염색체 7:155167562 서열번호 34 0.9155 4.98E-54 0.913 3.25E-26
염색체 7:155167578 서열번호 34 0.8178 5.65E-29 0.831 1.07E-17
염색체 7:155167568 서열번호 34 0.8486 6.59E-28 0.8121 3.50E-15
염색체 7:155167552 서열번호 34 0.8411 2.64E-26 0.8395 2.42E-18
염색체 7:155167507 서열번호 34 0.8073 4.70E-22 0.8226 4.32E-17
염색체 7:155167555 서열번호 34 0.8074 3.80E-21 0.8482 4.84E-19
염색체 7:155167552,155167555 서열번호 34 0.8302 1.49E-20 0.804 7.42E-16
염색체 7:155167617 서열번호 34 0.8344 2.52E-20 0.8147 2.22E-15
염색체 7:155167560,155167562 서열번호 34 0.8292 3.11E-20 0.8132 3.02E-11
염색체 7:155167562,155167568 서열번호 34 0.8419 7.92E-18 0.8318 1.76E-11
염색체 8:10588946 서열번호 35 0.9039 1.58E-50 0.8313 1.56E-13
염색체 8:10588942 서열번호 35 0.8886 1.60E-46 0.8301 2.62E-09
염색체 8:10588948 서열번호 35 0.8814 8.02E-45 0.8193 7.35E-17
염색체 8:10588951 서열번호 35 0.8519 6.75E-39 0.8339 1.56E-13
염색체 8:10588946,10588948 서열번호 35 0.834 6.87E-36 0.8265 2.40E-10
염색체 8:10589003 서열번호 35 0.8154 3.90E-33 0.8456 7.86E-19
염색체 8:10588948,10588951 서열번호 35 0.812 1.15E-32 0.8054 9.40E-09
염색체 8:10588942,10588946 서열번호 35 0.8082 3.80E-32 0.8341 3.52E-06
염색체 8:10589009 서열번호 35 0.8026 2.06E-31 0.8154 1.34E-16
염색체 8:10588938 서열번호 35 0.8048 6.72E-31 0.8009 9.32E-10
염색체 8:25907898,25907900 서열번호 36 0.8493 9.19E-36 0.8229 0.00E+00
염색체 8:25907893,25907898,25907900 서열번호 36 0.8652 2.16E-41 0.9881 6.76E-53
염색체 8:25907898,25907900,25907902 서열번호 36 0.8245 1.93E-34 0.9872 6.44E-52
염색체 8:25907884,25907893,25907898,25907900 서열번호 36 0.8134 7.35E-33 0.9849 9.69E-50
염색체 8:25907893,25907898,25907900,25907902 서열번호 36 0.8087 1.13E-28 0.9858 1.61E-50
염색체 8:25907884,25907893,25907898,25907900,25907902 서열번호 36 0.8259 4.37E-25 0.984 6.07E-49
염색체 8:25907898,25907900,25907902,25907906 서열번호 36 0.803 5.52E-24 0.8711 3.98E-21
염색체 8:25907880,25907884,25907893,25907898,25907900 서열번호 36 0.8162 1.92E-23 0.9834 2.15E-48
염색체 8:25907874,25907880,25907884,25907893,25907898,25907900 서열번호 36 0.8225 5.77E-23 0.9818 3.93E-47
염색체 8:25907898,25907900,25907902,25907906,25907918 서열번호 36 0.8203 3.87E-22 0.8783 7.25E-22
염색체 8:57069712 서열번호 37 0.8807 1.17E-44 0.9763 1.34E-43
염색체 8:57069739 서열번호 37 0.8538 3.10E-39 0.9749 7.86E-43
염색체 8:57069709 서열번호 37 0.8396 8.64E-37 0.9154 1.38E-26
염색체 8:57069735 서열번호 37 0.832 1.38E-35 0.9811 1.12E-46
염색체 8:57069722 서열번호 37 0.8296 3.22E-35 0.9777 2.08E-44
염색체 8:57069709,57069712 서열번호 37 0.8092 2.81E-32 0.9043 5.58E-25
염색체 8:57069755 서열번호 37 0.8442 8.32E-27 0.9036 7.03E-25
염색체 8:57069735,57069739 서열번호 37 0.8297 9.83E-25 0.9796 1.32E-45
염색체 8:57069712,57069722 서열번호 37 0.8002 2.43E-23 0.9872 6.40E-52
염색체 8:57069709,57069712,57069722 서열번호 37 0.8453 4.10E-21 0.9 2.12E-24
염색체 10:28034654 서열번호 38 0.9607 2.47E-75 0.993 3.18E-60
염색체 10:28034658 서열번호 38 0.8399 1.07E-27 0.9904 8.14E-56
염색체 10:28034669 서열번호 38 0.8453 8.40E-22 0.9783 8.82E-45
염색체 10:28034682 서열번호 38 0.8393 1.43E-19 0.9821 2.06E-47
염색체 10:28034697 서열번호 38 0.8054 1.83E-16 0.9695 3.32E-40
염색체 10:28034727 서열번호 38 0.8065 4.37E-15 0.91 8.80E-26
염색체 10:28034654,28034658 서열번호 38 0.81 1.88E-14 0.9758 2.59E-43
염색체 10:28034757 서열번호 38 0.8363 1.97E-14 0.832 9.12E-18
염색체 10:28034751 서열번호 38 0.8423 5.71E-13 0.8414 1.72E-18
염색체 10:28034687 서열번호 38 0.8045 6.22E-13 0.9461 1.53E-32
염색체 12:4919230 서열번호 39 0.8381 5.14E-21 0.9321 1.76E-29
염색체 12:4919215 서열번호 39 0.8005 7.89E-21 0.9279 1.10E-28
염색체 12:4919164 서열번호 39 0.8362 2.10E-20 0.9196 2.99E-27
염색체 12:4919138 서열번호 39 0.8078 1.12E-18 0.919 3.69E-27
염색체 12:4919147 서열번호 39 0.8387 1.00E-14 0.9204 2.18E-27
염색체 12:4919191 서열번호 39 0.8386 2.39E-14 0.9409 2.54E-31
염색체 12:4919239 서열번호 39 0.8216 4.99E-14 0.829 1.47E-15
염색체 12:4919260 서열번호 39 0.8347 3.67E-12 0.8098 3.34E-08
염색체 12:4919145 서열번호 39 0.8419 4.40E-11 0.92 2.57E-27
염색체 12:4919184 서열번호 39 0.8292 4.50E-11 0.928 1.05E-28
염색체 12:33592862 서열번호 40 0.8161 3.10E-33 0.9049 4.67E-25
염색체 12:33592865 서열번호 40 0.8033 2.40E-27 0.8213 5.31E-17
염색체 12:33592867 서열번호 40 0.8032 1.18E-21 0.8185 3.78E-13
염색체 12:33592882 서열번호 40 0.8102 2.32E-13 0.8242 1.31E-07
염색체 12:33592831 서열번호 40 0.8025 5.67E-13 0.8179 9.20E-10
염색체 12:33592859 서열번호 40 0.8359 6.28E-13 0.8296 1.50E-11
염색체 12:33592859,33592862 서열번호 40 0.813 9.00E-13 0.8367 7.52E-13
염색체 12:33592867,33592875,33592882 서열번호 40 0.8111 1.90E-12 0.8007 1.32E-09
염색체 12:33592862,33592865 서열번호 40 0.8486 1.72E-11 0.8452 2.62E-10
염색체 12:33592875 서열번호 40 0.8194 2.10E-11 0.8473 1.64E-08
염색체 12:58131345,58131348,58131384,58131390,58131404 서열번호 41 0.8258 3.76E-35 0.8243 0.00E+00
염색체 12:58131348,58131384,58131390,58131404 서열번호 41 0.9623 1.64E-76 0.9669 4.61E-39
염색체 12:58131384,58131390,58131404 서열번호 41 0.93 3.17E-59 0.9455 2.08E-32
염색체 12:58131345,58131348,58131384,58131390,58131404,58131412 서열번호 41 0.9134 2.31E-53 0.9433 7.04E-32
염색체 12:58131345,58131348,58131384,58131390,58131404,58131412,58131414 서열번호 41 0.9034 2.18E-50 0.9326 1.42E-29
염색체 12:58131390,58131404 서열번호 41 0.9021 4.94E-50 0.9037 6.81E-25
염색체 12:58131404 서열번호 41 0.8863 5.91E-46 0.8771 9.77E-22
염색체 12:58131348,58131384,58131390,58131404,58131412 서열번호 41 0.8774 6.31E-44 0.9236 6.25E-28
염색체 12:58131348,58131384,58131390,58131404,58131412,58131414 서열번호 41 0.8728 6.07E-43 0.911 6.49E-26
염색체 12:58131345,58131348,58131384,58131390,58131404,58131412,58131414,58131426 서열번호 41 0.85 1.49E-38 0.8415 1.69E-18
염색체 12:115125060 서열번호 42 0.8095 2.50E-32 0.8061 5.43E-16
염색체 12:115125013 서열번호 42 0.8156 6.90E-31 0.8574 7.76E-20
염색체 12:115125060,115125098 서열번호 42 0.8214 2.36E-27 0.8184 8.22E-13
염색체 12:115125060,115125098,115125107 서열번호 42 0.8306 1.26E-26 0.8253 2.43E-12
염색체 12:115125053,115125060,115125098,115125107 서열번호 42 0.8262 1.39E-25 0.8237 1.27E-11
염색체 12:115125053,115125060,115125098 서열번호 42 0.8219 2.53E-25 0.8327 7.19E-12
염색체 12:115125053,115125060 서열번호 42 0.8154 3.07E-25 0.828 3.44E-13
염색체 12:115125098 서열번호 42 0.8173 5.71E-25 0.8288 1.66E-13
염색체 12:115125013,115125034 서열번호 42 0.8021 1.01E-24 0.8317 3.79E-15
염색체 12:115125053 서열번호 42 0.8152 1.07E-24 0.8028 4.53E-15
염색체 13:37005694 서열번호 43 0.8012 6.85E-35 0.85 0.00E+00
염색체 13:37005678 서열번호 43 0.8209 3.41E-25 0.9387 7.73E-31
염색체 13:37005686 서열번호 43 0.8173 3.97E-20 0.9508 9.36E-34
염색체 13:37005706 서열번호 43 0.8389 1.86E-19 0.9346 5.47E-30
염색체 13:37005704 서열번호 43 0.8034 7.82E-16 0.9352 4.26E-30
염색체 13:37005673 서열번호 43 0.835 9.88E-15 0.9261 2.28E-28
염색체 13:37005686,37005694 서열번호 43 0.8426 4.34E-14 0.9375 1.39E-30
염색체 13:37005721 서열번호 43 0.8205 5.95E-14 0.9365 2.23E-30
염색체 13:37005694,37005704 서열번호 43 0.8362 2.00E-12 0.932 1.80E-29
염색체 13:37005738 서열번호 43 0.846 1.13E-10 0.9278 1.15E-28
염색체 13:100649745 서열번호 44 0.8958 2.46E-48 0.9142 2.15E-26
염색체 13:100649734 서열번호 44 0.8443 1.85E-30 0.8101 3.02E-16
염색체 13:100649740 서열번호 44 0.8092 1.22E-27 0.8495 4.11E-10
염색체 13:100649740,100649745 서열번호 44 0.8086 8.73E-27 0.8194 1.87E-09
염색체 13:100649734,100649738 서열번호 44 0.8412 1.60E-26 0.8369 3.18E-11
염색체 13:100649738 서열번호 44 0.8169 3.45E-26 0.811 2.65E-16
염색체 13:100649725 서열번호 44 0.8151 6.71E-26 0.8483 1.45E-11
염색체 13:100649715 서열번호 44 0.8483 1.74E-25 0.8235 1.51E-07
염색체 13:100649721 서열번호 44 0.8079 8.64E-25 0.8156 3.21E-05
염색체 13:100649738,100649740 서열번호 44 0.8173 6.74E-24 0.8402 3.79E-06
염색체 13:100649769 서열번호 45 0.8759 1.32E-43 0.9245 4.36E-28
염색체 13:100649718 서열번호 45 0.804 2.09E-26 0.8276 1.13E-14
염색체 13:100649718,100649721 서열번호 45 0.8208 2.87E-25 0.8164 4.87E-09
염색체 13:100649745 서열번호 45 0.8065 4.52E-24 0.8162 1.12E-14
염색체 13:100649731 서열번호 45 0.8004 8.65E-24 0.8352 5.21E-18
염색체 13:100649725 서열번호 45 0.809 2.30E-23 0.8234 3.81E-17
염색체 13:100649731,100649734 서열번호 45 0.8221 9.41E-23 0.8091 3.48E-16
염색체 13:100649745,100649763 서열번호 45 0.848 1.03E-22 0.8069 1.44E-14
염색체 13:100649701 서열번호 45 0.806 1.25E-22 0.8314 1.97E-14
염색체 13:100649731,100649734,100649738 서열번호 45 0.8131 1.32E-22 0.8046 1.02E-12
염색체 14:38724685 서열번호 46 0.8564 1.03E-39 0.9177 5.94E-27
염색체 14:38724669 서열번호 46 0.8505 1.21E-38 0.9092 1.18E-25
염색체 14:38724675 서열번호 46 0.8391 1.01E-36 0.9177 6.05E-27
염색체 14:38724680 서열번호 46 0.8374 1.92E-36 0.9073 2.20E-25
염색체 14:38724648,38724650 서열번호 46 0.8242 3.24E-27 0.8692 6.20E-21
염색체 14:38724682 서열번호 46 0.8116 7.59E-27 0.8839 1.82E-22
염색체 14:38724650 서열번호 46 0.8125 7.70E-27 0.9056 3.76E-25
염색체 14:38724648 서열번호 46 0.8316 3.29E-25 0.9018 1.23E-24
염색체 14:38724646 서열번호 46 0.8491 4.64E-25 0.8597 4.86E-20
염색체 14:38724852 서열번호 46 0.8414 5.76E-21 0.8754 1.46E-21
염색체 14:38724852 서열번호 47 0.975 4.13E-88 0.9744 1.57E-42
염색체 14:38724858 서열번호 47 0.9422 1.57E-64 0.9341 7.13E-30
염색체 14:38724864 서열번호 47 0.8644 3.12E-41 0.8856 1.16E-22
염색체 14:38724852,38724858 서열번호 47 0.845 1.07E-37 0.8562 9.97E-20
염색체 14:38724847 서열번호 47 0.8283 5.66E-29 0.8675 9.09E-21
염색체 14:38724847,38724852 서열번호 47 0.848 2.20E-27 0.86 4.53E-20
염색체 14:38724858,38724864 서열번호 47 0.8295 5.06E-26 0.8437 1.13E-18
염색체 14:38724873 서열번호 47 0.8157 9.57E-26 0.8538 1.62E-19
염색체 14:38724867 서열번호 47 0.8162 1.82E-17 0.843 1.29E-18
염색체 14:38724852,38724858,38724864 서열번호 47 0.8257 2.15E-17 0.8234 3.78E-17
염색체 14:57275896 서열번호 48 0.9371 3.32E-62 0.9721 2.16E-41
염색체 14:57275885,57275896 서열번호 48 0.8145 3.81E-20 0.8418 1.60E-18
염색체 14:57275908 서열번호 48 0.8462 1.04E-19 0.8144 6.12E-14
염색체 14:57275885 서열번호 48 0.8364 1.35E-16 0.8732 2.48E-21
염색체 14:57275852 서열번호 48 0.8157 7.06E-16 0.8229 2.30E-13
염색체 14:57275924 서열번호 48 0.8176 1.32E-15 0.8333 7.24E-18
염색체 14:57275823 서열번호 48 0.8084 3.03E-15 0.8257 2.59E-17
염색체 14:57275831 서열번호 48 0.8191 3.97E-15 0.8427 1.20E-13
염색체 14:57275896,57275908 서열번호 48 0.8163 1.11E-14 0.8165 1.37E-11
염색체 14:57275827 서열번호 48 0.8241 6.71E-14 0.8054 1.26E-09
염색체 14:60952634 서열번호 49 0.8105 1.02E-16 0.8491 1.91E-11
염색체 14:60952658 서열번호 49 0.8332 5.40E-15 0.8152 3.97E-12
염색체 14:60952762 서열번호 49 0.8056 2.10E-13 0.8151 4.09E-07
염색체 14:60952658,60952683 서열번호 49 0.8164 3.87E-11 0.83 3.83E-09
염색체 14:60952683 서열번호 49 0.8136 9.47E-11 0.8356 2.95E-12
염색체 14:60952755 서열번호 49 0.8232 1.75E-08 0.8333 5.67E-07
염색체 14:60952755,60952762 서열번호 49 0.8487 2.36E-08 0.8227 8.30E-06
염색체 14:60952730 서열번호 49 0.8436 3.00E-08 0.8088 2.44E-05
염색체 14:60952634,60952658 서열번호 49 0.8266 2.45E-07 0.8384 9.73E-08
염색체 14:60952687 서열번호 49 0.8499 8.22E-07 0.8324 3.68E-09
염색체 15:83952345 서열번호 50 0.9181 6.49E-55 0.9719 2.85E-41
염색체 15:83952352 서열번호 50 0.8425 2.80E-37 0.9678 1.79E-39
염색체 15:83952358 서열번호 50 0.8326 1.14E-35 0.8186 8.22E-17
염색체 15:83952309 서열번호 50 0.8444 1.26E-20 0.9187 4.12E-27
염색체 15:83952314 서열번호 50 0.8481 5.77E-20 0.9366 2.14E-30
염색체 15:83952317 서열번호 50 0.8183 9.87E-20 0.9432 7.34E-32
염색체 15:83952266 서열번호 50 0.8083 1.50E-18 0.9397 4.76E-31
염색체 15:83952238 서열번호 50 0.8066 1.84E-17 0.8003 4.48E-11
염색체 15:83952285 서열번호 50 0.832 2.97E-16 0.9194 3.21E-27
염색체 15:83952291 서열번호 50 0.8437 5.75E-12 0.9231 7.68E-28
염색체 16:31580246 서열번호 51 0.9502 1.09E-68 0.9505 1.10E-33
염색체 16:31580254 서열번호 51 0.8073 5.03E-32 0.8026 3.43E-08
염색체 16:31580246,31580254 서열번호 51 0.8453 9.24E-31 0.8212 3.61E-07
염색체 16:31580287 서열번호 51 0.8461 4.65E-24 0.8005 7.15E-06
염색체 16:31580296 서열번호 51 0.811 4.59E-19 0.8199 1.46E-04
염색체 16:31580269 서열번호 51 0.8158 2.90E-16 0.8113 3.10E-05
염색체 16:31580220,31580246 서열번호 51 0.8455 1.85E-15 0.8117 1.97E-08
염색체 16:31580311 서열번호 51 0.8402 7.22E-15 0.8415 1.50E-05
염색체 16:31580220 서열번호 51 0.8246 7.02E-14 0.8399 1.22E-08
염색체 16:31580299 서열번호 51 0.8291 1.75E-11 0.8255 2.76E-03
염색체 16:73097037 서열번호 52 0.8972 1.06E-48 0.9026 9.49E-25
염색체 16:73097045 서열번호 52 0.8655 1.86E-41 0.8829 2.32E-22
염색체 16:73097037,73097045 서열번호 52 0.8519 6.70E-39 0.8741 1.98E-21
염색체 16:73097057 서열번호 52 0.8276 6.64E-35 0.8452 8.43E-19
염색체 16:73097156 서열번호 52 0.8267 8.97E-35 0.8263 2.37E-17
염색체 16:73097060 서열번호 52 0.8253 1.44E-34 0.8639 1.98E-20
염색체 16:73097183 서열번호 52 0.8182 1.56E-33 0.8342 6.23E-18
염색체 16:73097156,73097183 서열번호 52 0.8487 1.02E-28 0.845 4.04E-11
염색체 16:73097045,73097057 서열번호 52 0.8379 2.37E-26 0.8024 9.27E-16
염색체 16:73097069 서열번호 52 0.8254 3.06E-26 0.8235 3.74E-17
염색체 17:35299974 서열번호 53 0.8088 1.73E-26 0.8385 5.26E-12
염색체 17:35299990 서열번호 53 0.8187 1.24E-22 0.8457 2.24E-13
염색체 17:35299972 서열번호 53 0.827 1.17E-21 0.836 4.20E-14
염색체 17:35299963 서열번호 53 0.8257 6.51E-18 0.8491 7.55E-15
염색체 17:35299974,35299990 서열번호 53 0.8031 4.20E-17 0.8069 1.57E-10
염색체 17:35299972,35299974 서열번호 53 0.8311 4.71E-16 0.8085 7.48E-10
염색체 17:35299966 서열번호 53 0.8024 3.37E-15 0.8044 9.71E-10
염색체 17:35299944 서열번호 53 0.8473 1.72E-14 0.8554 1.16E-19
염색체 17:35299972,35299974,35299990 서열번호 53 0.8034 1.01E-13 0.8111 1.71E-09
염색체 17:35299966,35299972,35299974 서열번호 53 0.8497 2.00E-13 0.8103 6.11E-09
염색체 17:76929873,76929926 서열번호 54 0.8482 4.29E-35 0.8276 0.00E+00
염색체 17:76929873 서열번호 54 0.9043 1.26E-50 0.9472 7.95E-33
염색체 17:76929926 서열번호 54 0.8066 1.47E-25 0.8052 6.13E-15
염색체 17:76929829,76929873,76929926 서열번호 54 0.844 1.68E-06 0.8442 1.23E-03
염색체 17:76929829,76929873 서열번호 54 0.8448 4.59E-05 0.842 7.49E-03
염색체 17:76929829 서열번호 54 0.8126 2.78E-02 0.8195 0.00E+00
염색체 17:76929769,76929829,76929873,76929926 서열번호 54 0.8054 3.80E-35 0.8495 0.00E+00
염색체 17:76929769,76929829,76929873 서열번호 54 0.8313 6.64E-35 0.8271 0.00E+00
염색체 17:76929769,76929829 서열번호 54 0.829 9.29E-35 0.8483 0.00E+00
염색체 17:76929769 서열번호 54 0.8473 7.08E-35 0.8158 0.00E+00
염색체 17:80846867,80846886,80846960 서열번호 55 0.8174 6.82E-35 0.8381 0.00E+00
염색체 17:80846860,80846867,80846886,80846960 서열번호 55 0.9555 8.04E-72 0.9842 4.14E-49
염색체 17:80846886,80846960 서열번호 55 0.9402 1.31E-63 0.9707 9.77E-41
염색체 17:80846960 서열번호 55 0.916 3.26E-54 0.954 1.19E-34
염색체 17:80846867,80846886,80846960,80846965 서열번호 55 0.8306 1.19E-29 0.8071 4.68E-16
염색체 17:80846860,80846867,80846886,80846960,80846965 서열번호 55 0.8081 4.66E-27 0.8227 8.45E-14
염색체 17:80846867,80846886 서열번호 55 0.8272 2.23E-26 0.8483 2.76E-12
염색체 17:80846886,80846960,80846965 서열번호 55 0.8186 5.63E-26 0.8319 3.66E-14
염색체 17:80846860,80846867,80846886 서열번호 55 0.8172 1.80E-25 0.8339 1.29E-12
염색체 17:80846867 서열번호 55 0.8147 2.82E-23 0.8327 7.71E-12
염색체 21:38081502 서열번호 56 0.8277 2.71E-18 0.8391 1.18E-10
염색체 21:38081499 서열번호 56 0.8148 4.73E-15 0.8425 9.06E-14
염색체 21:38081497 서열번호 56 0.8326 1.77E-09 0.8265 3.07E-07
염색체 21:38081502,38081514 서열번호 56 0.8155 5.85E-08 0.8468 4.58E-04
염색체 21:38081492,38081497 서열번호 56 0.809 3.51E-06 0.8023 6.89E-04
염색체 21:38081492 서열번호 56 0.8203 4.12E-06 0.8348 7.80E-03
염색체 21:38081514 서열번호 56 0.8438 3.78E-05 0.829 0.00E+00
염색체 21:38081499,38081502 서열번호 56 0.8294 8.90E-05 0.8021 1.04E-03
염색체 21:38081502,38081514,38081517 서열번호 56 0.8197 1.47E-04 0.8396 5.24E-03
염색체 21:38081492,38081497,38081499 서열번호 56 0.8157 1.79E-04 0.8079 2.03E-03
1-2: 단일 메틸화 마커의 예측 성능
췌장암 유무에 따른 단일 메틸화 마커의 차별화 성능을 검증하기 위해 단일 메틸화 마커의 메틸화 수준 값을 사용하여 단일 마커의 예측 성능을 검증했다.
먼저, 56개의 메틸화 마커의 메틸화 수준 값을 췌장암 유무를 구별하기 위한 임계값, 민감도 및 특이성을 결정하기 위한 훈련용 훈련 세트 샘플에 별도로 사용하였고, 그런 다음 임계값을 사용하여 테스트 세트에 있는 샘플의 민감도와 특이성을 통계적으로 분석했다. 그 결과를 하기 표 4에 나타내었다. 단일 마커로도 좋은 차별화 성능을 달성할 수 있음을 알 수 있다.
56개 메틸화 마커의 예측 성능
서열번호 AUC 값 민감도 특이도 임계값
서열번호 1 훈련 세트 0.77572 0.793651 0.685185 0.833567
서열번호 1 테스트 세트 0.700993 0.677419 0.538462 0.833567
서열번호 2 훈련 세트 0.77866 0.825397 0.685185 0.623608
서열번호 2 테스트 세트 0.717122 0.774194 0.423077 0.623608
서열번호 3 훈련 세트 0.80776 0.698413 0.796296 0.519749
서열번호 3 테스트 세트 0.751861 0.677419 0.653846 0.519749
서열번호 4 훈련 세트 0.797178 0.698413 0.796296 0.916416
서열번호 4 테스트 세트 0.759305 0.645161 0.692308 0.916416
서열번호 5 훈련 세트 0.792916 0.730159 0.740741 0.856846
서열번호 5 테스트 세트 0.760546 0.774194 0.576923 0.856846
서열번호 6 훈련 세트 0.788948 0.68254 0.814815 0.502554
서열번호 6 테스트 세트 0.718362 0.709677 0.538462 0.502554
서열번호 7 훈련 세트 0.798207 0.777778 0.685185 0.811377
서열번호 7 테스트 세트 0.792804 0.806452 0.576923 0.811377
서열번호 8 훈련 세트 0.786008 0.698413 0.796296 0.021244
서열번호 8 테스트 세트 0.837469 0.806452 0.692308 0.021244
서열번호 9 훈련 세트 0.788948 0.777778 0.685185 0.88238
서열번호 9 테스트 세트 0.771712 0.774194 0.576923 0.88238
서열번호 10 훈련 세트 0.781599 0.555556 0.944444 0.077874
서열번호 10 테스트 세트 0.789082 0.580645 0.807692 0.077874
서열번호 11 훈련 세트 0.793945 0.603175 0.888889 0.764823
서열번호 11 테스트 세트 0.764268 0.612903 0.730769 0.764823
서열번호 12 훈련 세트 0.781893 0.746032 0.777778 0.897736
서열번호 12 테스트 세트 0.784119 0.806452 0.576923 0.897736
서열번호 13 훈련 세트 0.770135 0.793651 0.611111 0.873318
서열번호 13 테스트 세트 0.771712 0.741935 0.653846 0.873318
서열번호 14 훈련 세트 0.78689 0.825397 0.62963 0.913279
서열번호 14 테스트 세트 0.78536 0.870968 0.538462 0.913279
서열번호 15 훈련 세트 0.798648 0.666667 0.814815 0.160867
서열번호 15 테스트 세트 0.705955 0.612903 0.692308 0.160867
서열번호 16 훈련 세트 0.797178 0.746032 0.796296 0.56295
서열번호 16 테스트 세트 0.616625 0.935484 0.192308 0.56295
서열번호 17 훈련 세트 0.782481 0.666667 0.777778 0.061143
서열번호 17 테스트 세트 0.76799 0.709677 0.692308 0.061143
서열번호 18 훈련 세트 0.762493 0.666667 0.777778 0.899668
서열번호 18 테스트 세트 0.759305 0.677419 0.653846 0.899668
서열번호 19 훈련 세트 0.751911 0.730159 0.666667 0.943553
서열번호 19 테스트 세트 0.745658 0.806452 0.461538 0.943553
서열번호 20 훈련 세트 0.779248 0.634921 0.833333 0.859903
서열번호 20 테스트 세트 0.801489 0.612903 0.807692 0.859903
서열번호 21 훈련 세트 0.771311 0.84127 0.62963 0.655087
서열번호 21 테스트 세트 0.647643 0.677419 0.5 0.655087
서열번호 22 훈련 세트 0.742504 0.698413 0.703704 0.922167
서열번호 22 테스트 세트 0.787841 0.741935 0.653846 0.922167
서열번호 23 훈련 세트 0.75485 0.698413 0.777778 0.248108
서열번호 23 테스트 세트 0.722084 0.548387 0.807692 0.248108
서열번호 24 훈련 세트 0.771311 0.634921 0.814815 0.157576
서열번호 24 테스트 세트 0.799007 0.709677 0.730769 0.157576
서열번호 25 훈련 세트 0.777778 0.730159 0.666667 0.911221
서열번호 25 테스트 세트 0.69727 0.645161 0.576923 0.911221
서열번호 26 훈련 세트 0.765726 0.68254 0.759259 0.908358
서열번호 26 테스트 세트 0.776675 0.806452 0.576923 0.908358
서열번호 27 테스트 세트 0.764268 0.903226 0.346154 0.933709
서열번호 27 훈련 세트 0.767784 0.793651 0.611111 0.933709
서열번호 28 훈련 세트 0.783363 0.746032 0.703704 0.880336
서열번호 28 테스트 세트 0.781638 0.741935 0.692308 0.880336
서열번호 29 훈련 세트 0.768225 0.761905 0.666667 0.55838
서열번호 29 테스트 세트 0.734491 0.645161 0.615385 0.55838
서열번호 30 훈련 세트 0.780864 0.634921 0.87037 0.974684
서열번호 30 테스트 세트 0.756824 0.612903 0.769231 0.974684
서열번호 31 훈련 세트 0.782481 0.68254 0.740741 0.887647
서열번호 31 테스트 세트 0.728288 0.709677 0.615385 0.887647
서열번호 32 훈련 세트 0.800412 0.698413 0.740741 0.9042
서열번호 32 테스트 세트 0.832506 0.806452 0.576923 0.9042
서열번호 33 훈련 세트 0.751029 0.634921 0.796296 9.37E-06
서열번호 33 테스트 세트 0.859801 0.677419 0.884615 9.37E-06
서열번호 34 훈련 세트 0.771311 0.634921 0.777778 0.808219
서열번호 34 테스트 세트 0.744417 0.612903 0.807692 0.808219
서열번호 35 훈련 세트 0.771605 0.587302 0.851852 0.793764
서열번호 35 테스트 세트 0.751861 0.645161 0.692308 0.793764
서열번호 36 훈련 세트 0.751323 0.761905 0.703704 0.001854
서열번호 36 테스트 세트 0.668114 0.677419 0.538462 0.001854
서열번호 37 테스트 세트 0.812655 0.83871 0.576923 0.028402
서열번호 37 훈련 세트 0.786302 0.84127 0.62963 0.028402
서열번호 38 훈련 세트 0.758377 0.698413 0.703704 0.960583
서열번호 38 테스트 세트 0.677419 0.709677 0.423077 0.960583
서열번호 39 훈련 세트 0.789536 0.698413 0.796296 0.941044
서열번호 39 테스트 세트 0.681141 0.709677 0.576923 0.941044
서열번호 40 훈련 세트 0.777484 0.714286 0.777778 0.892282
서열번호 40 테스트 세트 0.815136 0.677419 0.730769 0.892282
서열번호 41 훈련 세트 0.783069 0.634921 0.777778 0.752404
서열번호 41 테스트 세트 0.764268 0.709677 0.807692 0.752404
서열번호 42 훈련 세트 0.759553 0.698413 0.703704 0.663212
서열번호 42 테스트 세트 0.739454 0.612903 0.692308 0.663212
서열번호 43 훈련 세트 0.781599 0.714286 0.740741 0.030791
서열번호 43 테스트 세트 0.764268 0.741935 0.653846 0.030791
서열번호 44 훈련 세트 0.751029 0.714286 0.722222 0.428244
서열번호 44 테스트 세트 0.715881 0.741935 0.576923 0.428244
서열번호 45 훈련 세트 0.774544 0.809524 0.648148 0.818533
서열번호 45 테스트 세트 0.751861 0.741935 0.423077 0.818533
서열번호 46 테스트 세트 0.823821 0.870968 0.615385 0.873866
서열번호 46 훈련 세트 0.784245 0.888889 0.555556 0.873866
서열번호 47 훈련 세트 0.776602 0.666667 0.777778 0.939612
서열번호 47 테스트 세트 0.797767 0.806452 0.538462 0.939612
서열번호 48 훈련 세트 0.751617 0.587302 0.796296 0.833123
서열번호 48 테스트 세트 0.753102 0.741935 0.615385 0.833123
서열번호 49 훈련 세트 0.787625 0.825397 0.666667 0.915698
서열번호 49 테스트 세트 0.725806 0.774194 0.576923 0.915698
서열번호 50 훈련 세트 0.803645 0.777778 0.740741 0.964413
서열번호 50 테스트 세트 0.817618 0.83871 0.615385 0.964413
서열번호 51 훈련 세트 0.767784 0.68254 0.703704 0.759093
서열번호 51 테스트 세트 0.800248 0.806452 0.615385 0.759093
서열번호 52 훈련 세트 0.754556 0.650794 0.740741 0.203289
서열번호 52 테스트 세트 0.765509 0.677419 0.692308 0.203289
서열번호 53 훈련 세트 0.773075 0.698413 0.777778 0.866077
서열번호 53 테스트 세트 0.705955 0.741935 0.576923 0.866077
서열번호 54 훈련 세트 0.771899 0.84127 0.611111 0.780937
서열번호 54 테스트 세트 0.80273 0.903226 0.5 0.780937
서열번호 55 훈련 세트 0.749706 0.571429 0.87037 0.712991
서열번호 55 테스트 세트 0.631514 0.516129 0.730769 0.712991
서열번호 56 훈련 세트 0.786302 0.746032 0.722222 0.901679
서열번호 56 테스트 세트 0.630243 0.645161 0.607692 0.901679
1-3: 모든 마커의 조합에 대한 예측 모델
메틸화 핵산 단편 마커를 사용하여 췌장암을 구별하는 잠재적인 능력을 검증하기 위해 훈련 그룹의 56개 메틸화 핵산 단편 마커를 기반으로 지원 벡터 머신 질병 분류 모델을 구축하여 테스트 그룹서 이 메틸화 마커 클러스터의 분류 예측 효과를 검증했다. 훈련 그룹과 테스트 그룹을 비율에 따라 나누어 훈련 그룹(샘플 1~117)의 샘플 117개와 테스트 그룹(샘플 118~174)의 샘플 57개로 구성했다.
발견된 메틸화 마커는 두 그룹의 샘플에 대한 훈련 세트에서 지원 벡터 기계 모델을 구성하는 데 사용되었다.
1) 샘플은 사전에 2개 부분으로 나누어졌고, 1개 부분은 모델 훈련에 사용되었고, 1개 부분은 모델 테스트에 사용되었다.
2) SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령줄: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(0.23.1)는 메틸화 값 데이터 매트릭스를 입력하여 SVM 모델 model.fit(x_train, y_train)을 구성하는 데 사용되고, 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타낸다.
모델을 구축하는 과정에서 췌장암 표본 유형은 1로 코딩되었고, 췌장암이 없는 표본 유형은 0으로 코딩되었다. sklearn 소프트웨어 패키지(0.23.1)로 모델을 구성하는 과정에서 임계값은 기본적으로 0.895로 설정되었다. 구축된 모델은 최종적으로 췌장암 유무에 따른 샘플을 0.895로 구별했다. 훈련 세트 샘플에 대한 두 모델의 예측 점수는 표 5에 나와 있다.
샘플 타입 점수 샘플 타입 점수
샘플 1 췌장암 없음 0.893229976 샘플 60 췌장암 0.895863768
샘플 2 췌장암 없음 0.895013223 샘플 61 췌장암 0.9049507
샘플 3 췌장암 0.894882888 샘플 62 췌장암 0.898486446
샘플 4 췌장암 없음 0.893934677 샘플 63 췌장암 0.895516215
샘플 5 췌장암 없음 0.896841445 샘플 64 췌장암 0.899627853
샘플 6 췌장암 0.896054017 샘플 65 췌장암 0.894139084
샘플 7 췌장암 없음 0.893751222 샘플 66 췌장암 0.896066317
샘플 8 췌장암 0.895249143 샘플 67 췌장암 0.895653768
샘플 9 췌장암 0.895766138 샘플 68 췌장암 0.894574595
샘플 10 췌장암 없음 0.893661796 샘플 69 췌장암 0.899534971
샘플 11 췌장암 없음 0.894065433 샘플 70 췌장암 0.894752391
샘플 12 췌장암 없음 0.894278734 샘플 71 췌장암 0.899581479
샘플 13 췌장암 없음 0.8940632 샘플 72 췌장암 없음 0.895978159
샘플 14 췌장암 없음 0.893459631 샘플 73 췌장암 0.895617753
샘플 15 췌장암 없음 0.892932686 샘플 74 췌장암 0.894835698
샘플 16 췌장암 없음 0.893522949 샘플 75 췌장암 0.902355179
샘플 17 췌장암 없음 0.893741741 샘플 76 췌장암 0.895694906
샘플 18 췌장암 없음 0.894510469 샘플 77 췌장암 0.899999679
샘플 19 췌장암 없음 0.893866355 샘플 78 췌장암 0.9
샘플 20 췌장암 없음 0.895936638 샘플 79 췌장암 0.895848252
샘플 21 췌장암 0.894688627 샘플 80 췌장암 0.897055645
샘플 22 췌장암 없음 0.894744381 샘플 81 췌장암 0.896997761
샘플 23 췌장암 0.899065574 샘플 82 췌장암 0.913242766
샘플 24 췌장암 0.894525057 샘플 83 췌장암 0.895900127
샘플 25 췌장암 0.894148842 샘플 84 췌장암 0.906476534
샘플 26 췌장암 0.894788972 샘플 85 췌장암 0.895385103
샘플 27 췌장암 없음 0.894274243 샘플 86 췌장암 없음 0.89468141
샘플 28 췌장암 없음 0.893406552 샘플 87 췌장암 없음 0.892735928
샘플 29 췌장암 0.895308274 샘플 88 췌장암 없음 0.893463424
샘플 30 췌장암 0.894795724 샘플 89 췌장암 없음 0.89251894
샘플 31 췌장암 없음 0.893519373 샘플 90 췌장암 없음 0.893331026
샘플 32 췌장암 0.895663331 샘플 91 췌장암 없음 0.893676574
샘플 33 췌장암 0.89616556 샘플 92 췌장암 없음 0.893355406
샘플 34 췌장암 0.894924496 샘플 93 췌장암 없음 0.892959544
샘플 35 췌장암 0.896503989 샘플 94 췌장암 없음 0.893132053
샘플 36 췌장암 0.899846218 샘플 95 췌장암 없음 0.893066687
샘플 37 췌장암 0.895594069 샘플 96 췌장암 없음 0.894354059
샘플 38 췌장암 0.912591937 샘플 97 췌장암 없음 0.892774769
샘플 39 췌장암 0.896002353 샘플 98 췌장암 없음 0.892266834
샘플 40 췌장암 0.908621377 샘플 99 췌장암 없음 0.893527234
샘플 41 췌장암 0.894850957 샘플 100 췌장암 없음 0.895184905
샘플 42 췌장암 0.894635011 샘플 101 췌장암 없음 0.893879752
샘플 43 췌장암 0.897641236 샘플 102 췌장암 0.895086351
샘플 44 췌장암 0.895222579 샘플 103 췌장암 없음 0.896114863
샘플 45 췌장암 0.894991146 샘플 104 췌장암 없음 0.893436647
샘플 46 췌장암 없음 0.894120714 샘플 105 췌장암 없음 0.894703614
샘플 47 췌장암 0.902993927 샘플 106 췌장암 없음 0.893431172
샘플 48 췌장암 0.899321375 샘플 107 췌장암 없음 0.894666164
샘플 49 췌장암 0.897291974 샘플 108 췌장암 없음 0.893551029
샘플 50 췌장암 0.897914688 샘플 109 췌장암 없음 0.893621581
샘플 51 췌장암 0.896104384 샘플 110 췌장암 없음 0.893681846
샘플 52 췌장암 0.903706446 샘플 111 췌장암 없음 0.894345935
샘플 53 췌장암 0.895571142 샘플 112 췌장암 없음 0.89320714
샘플 54 췌장암 0.894370774 샘플 113 췌장암 없음 0.895288114
샘플 55 췌장암 0.899277534 샘플 114 췌장암 없음 0.893867075
샘플 56 췌장암 0.897717628 샘플 115 췌장암 없음 0.893701906
샘플 57 췌장암 없음 0.893134404 샘플 116 췌장암 없음 0.894679507
샘플 58 췌장암 0.894710346 샘플 117 췌장암 없음 0.893167765
샘플 59 췌장암 0.894246115
본 출원의 메틸화 핵산 단편 마커 클러스터를 기반으로, 이는 본 실시예에서 SVM에 의해 확립된 모델에 따라 테스트 세트에서 예측되었다. 테스트 세트를 예측 함수를 이용해 예측하여 예측 결과(질병 확률: 기본 점수 임계값은 0.895이며, 점수가 0.895보다 크면 악성으로 간주함)를 출력한다. 테스트 그룹에는 57개의 샘플(샘플 118~174)이 포함되었으며, 계산 과정은 다음과 같다:명령줄:
test_pred = model.predict(test_df)
여기서 test_pred는 본 예시에서 구축한 SVM 예측 모델을 이용하여 얻은 테스트 세트 내 샘플들의 예측 점수를 나타내고, model은 본 예시에서 구축한 SVM 예측 모델을 나타내며, test_df는 테스트 세트 데이터를 나타낸다.
실험군의 예측 점수는 표 6과 같다. ROC 곡선은 도 2에 나와 있다. 예측 점수 분포는 도 3에 나와 있다. 테스트 군의 전체 AUC 하 면적은 0.911이었다. 훈련 세트에서 모델의 민감도는 특이도가 90.7%일 때 71.4%에 도달할 수 있었다. 테스트 세트에서 특이도가 88.5%일 때 모델의 민감도는 83.9%에 도달할 수 있다. 선택된 변수에 의해 확립된 SVM 모델의 차별화 효과가 좋은 것을 알 수 있다.
도 4 및 5는 각각 훈련 그룹과 시험 그룹에서 56개의 메틸화 핵산 단편 마커의 분포를 보여준다. 췌장암이 없는 대상체의 혈장과 췌장암 환자의 혈장에서 이러한 메틸화 마커 클러스터의 차이는 비교적 안정적이라는 것을 알 수 있다.
테스트 세트 샘플에 대한 모델 예측 점수
샘플 Type Score 샘플 Type Score
샘플 118 췌장암 없음 0.892840415 샘플 147 췌장암 0.895445651
샘플 119 췌장암 없음 0.894808228 샘플 148 췌장암 0.896982419
샘플 120 췌장암 없음 0.893010572 샘플 149 췌장암 0.919640259
샘플 121 췌장암 없음 0.894819319 샘플 150 췌장암 0.902419155
샘플 122 췌장암 없음 0.896663158 샘플 151 췌장암 0.895090686
샘플 123 췌장암 없음 0.893419513 샘플 152 췌장암 0.897972041
샘플 124 췌장암 0.898460015 샘플 153 췌장암 0.897975186
샘플 125 췌장암 없음 0.894884278 샘플 154 췌장암 0.895608671
샘플 126 췌장암 0.895074685 샘플 155 췌장암 0.896923275
샘플 127 췌장암 없음 0.893856295 샘플 156 췌장암 0.919058207
샘플 128 췌장암 0.897375182 샘플 157 췌장암 0.914971841
샘플 129 췌장암 0.896724337 샘플 158 췌장암 0.89445029
샘플 130 췌장암 없음 0.895068998 샘플 159 췌장암 0.901561224
샘플 131 췌장암 없음 0.893616486 샘플 160 췌장암 0.894385595
샘플 132 췌장암 없음 0.894166762 샘플 161 췌장암 0.900253027
샘플 133 췌장암 없음 0.894683763 샘플 162 췌장암 0.895601176
샘플 134 췌장암 0.901640955 샘플 163 췌장암 없음 0.894637668
샘플 135 췌장암 0.897357709 샘플 164 췌장암 없음 0.895669553
샘플 136 췌장암 0.893550856 샘플 165 췌장암 없음 0.894261195
샘플 137 췌장암 0.896530196 샘플 166 췌장암 없음 0.893549014
샘플 138 췌장암 없음 0.894001953 샘플 167 췌장암 없음 0.894968169
샘플 139 췌장암 0.897230848 샘플 168 췌장암 없음 0.897122587
샘플 140 췌장암 없음 0.893650349 샘플 169 췌장암 없음 0.894488706
샘플 141 췌장암 0.897730904 샘플 170 췌장암 없음 0.893611044
샘플 142 췌장암 0.895338332 샘플 171 췌장암 없음 0.894759854
샘플 143 췌장암 0.896436157 샘플 172 췌장암 없음 0.89405156
샘플 144 췌장암 0.90181511 샘플 173 췌장암 없음 0.894203576
샘플 145 췌장암 0.896206867 샘플 174 췌장암 없음 0.894115083
샘플 146 췌장암 0.900280003
1-4: 종양 표지자 예측 비교
본 출원의 메틸화 마커 클러스터를 기반으로 실시예 1-3에서 SVM에 의해 확립된 모델에 따라 테스트 세트에서 예측되었다. CA19-9 마커를 기반으로 췌장암을 예측했다. 130개의 샘플이 있다(표 7). 계산 과정은 다음과 같다:
명령줄:
Combine_scalar = RobustScaler().fit(combine_train_df)
scaled_combine_train_df = Combine_scalar.transform(combine_train_df)
scaled_combine_test_df = Combine_scalar.transform(combine_test_df)
Combine_model = LogisticRegression().fit(scaled_combine_train_df, train_ca19_pheno)
여기서 Combine_train_df는 테스트 세트 샘플 중 실시예 1-3에서 구축한 SVM 예측 모델에서 얻은 예측 점수를 CA19-9와 결합한 훈련 세트 데이터 행렬을 나타내고, scaled_combine_train_df는 표준화 후의 훈련 세트 데이터 행렬을 나타낸다. scaled_combine_test_df는 표준화된 테스트 세트 데이터 매트릭스를 나타내고, Combine_model은 표준화된 훈련 세트 데이터 매트릭스를 사용하여 피팅된 로지스틱 회귀 모델을 나타낸다.
표본의 예측 점수는 표 7과 같다. ROC 곡선은 도 6에 표시된다. 예측 점수 분포는 도 7에 표시된다. 테스트 그룹의 전체 AUC는 0.935이다. 그림을 보면 기존의 로지스틱 회귀모형의 차별화 효과가 좋은 것을 알 수 있다.
도 7은 CA19-9 단독, 실시예 3 단독을 사용하여 구축한 SVM 모델, 그리고 CA19-9를 결합하여 구축한 실시예 3 모델의 분류 예측 점수 분포를 보여준다. 본 발명의 방법이 췌장암의 식별에 있어 보다 안정적이라는 것을 알 수 있다.
CA19-9의 예측 점수와 CA19-9를 결합한 모델의 예측 점수
샘플 타임 CA19-9 측정값 모델CN CA19-9와 결합된 모델 CN
샘플 1 췌장암 없음 1 0.893229976 0.26837584
샘플 2 췌장암 없음 1 0.895013223 0.598167417
샘플 3 췌장암 없음 1 0.892840415 0.212675448
샘플 4 췌장암 2 0.894882888 0.573802169
샘플 5 췌장암 없음 2 0.893934677 0.389973233
샘플 6 췌장암 없음 2.38 0.896841445 0.862537633
샘플 7 췌장암 없음 2.6 0.894808228 0.559686301
샘플 8 췌장암 없음 2.73 0.893010572 0.236512984
샘플 9 췌장암 없음 3.09 0.894819319 0.562063886
샘플 10 췌장암 3.17 0.896054017 0.771981439
샘플 11 췌장암 없음 3.3 0.893751222 0.356857798
샘플 12 췌장암 없음 3.65 0.896663158 0.845394585
샘플 13 췌장암 3.8 0.895249143 0.643027155
샘플 14 췌장암 없음 4.16 0.893419513 0.299867684
샘플 15 췌장암 4.19 0.895766138 0.730147078
샘플 16 췌장암 없음 4.41 0.893661796 0.341382822
샘플 17 췌장암 4.61 0.898460015 0.957392228
샘플 18 췌장암 없음 4.63 0.894065433 0.415890987
샘플 19 췌장암 없음 4.8 0.894278734 0.457156964
샘플 20 췌장암 없음 4.88 0.894884278 0.575421664
샘플 21 췌장암 없음 6.4 0.8940632 0.416291096
샘플 22 췌장암 없음 7 0.893459631 0.307686129
샘플 23 췌장암 7 0.895074685 0.612454757
샘플 24 췌장암 없음 7.15 0.893856295 0.377752923
샘플 25 췌장암 7.41 0.897375182 0.905973775
샘플 26 췌장암 없음 7.44 0.892932686 0.227229577
샘플 27 췌장암 없음 8.6 0.893522949 0.319048291
샘플 28 췌장암 없음 9.57 0.893741741 0.357914549
샘플 29 췌장암 10.29 0.896724337 0.853177242
샘플 30 췌장암 없음 11 0.895068998 0.613218554
샘플 31 췌장암 없음 11.28 0.894510469 0.505670555
샘플 32 췌장암 없음 12.78 0.893866355 0.382163129
샘플 33 췌장암 없음 12.8 0.895936638 0.758750029
샘플 34 췌장암 없음 13 0.893616486 0.337104932
샘플 35 췌장암 14.05 0.894688627 0.541888157
샘플 36 췌장암 없음 14.79 0.894166762 0.440150986
샘플 37 췌장암 없음 15.65 0.894744381 0.553498095
샘플 38 췌장암 18.14 0.899065574 0.973758788
샘플 39 췌장암 18.47 0.894525057 0.511987142
샘플 40 췌장암 20 0.894148842 0.439149676
샘플 41 췌장암 없음 20.41 0.894683763 0.543972765
샘플 42 췌장암 21 0.901640955 0.996467645
샘플 43 췌장암 21.13 0.894788972 0.56472723
샘플 44 췌장암 없음 22 0.894274243 0.464492285
샘플 45 췌장암 없음 23.56 0.893406552 0.305587252
샘플 46 췌장암 23.57 0.895308274 0.66216627
샘플 47 췌장암 24.1 0.897357709 0.907524955
샘플 48 췌장암 24.26 0.894795724 0.567507228
샘플 49 췌장암 없음 24.67 0.893519373 0.325177468
샘플 50 췌장암 24.78 0.893550856 0.330674117
샘플 51 췌장암 30 0.896530196 0.838230387
샘플 52 췌장암 없음 32.67 0.894001953 0.416867288
샘플 53 췌장암 33.99 0.895663331 0.72549358
샘플 54 췌장암 35 0.89616556 0.79710724
샘플 55 췌장암 37.78 0.894924496 0.598403217
샘플 56 췌장암 39.08 0.896503989 0.837804472
샘플 57 췌장암 41.74 0.897230848 0.901857032
샘플 58 췌장암 42.44 0.899846218 0.986261372
샘플 59 췌장암 없음 46.07 0.893650349 0.357535251
샘플 60 췌장암 52.11 0.895594069 0.721575695
샘플 61 췌장암 52.64 0.897730904 0.932877977
샘플 62 췌장암 54.62 0.912591937 0.999999389
샘플 63 췌장암 55.9 0.895338332 0.68107056
샘플 64 췌장암 59 0.896002353 0.783508748
샘플 65 췌장암 63.8 0.896436157 0.837017436
샘플 66 췌장암 66.68 0.90181511 0.997176145
샘플 67 췌장암 67.3 0.908621377 0.999986519
샘플 68 췌장암 72.52 0.894850957 0.60056185
샘플 69 췌장암 86 0.896206867 0.817388937
샘플 70 췌장암 91.9 0.894635011 0.568423992
샘플 71 췌장암 93.7 0.897641236 0.933406107
샘플 72 췌장암 101.1 0.895222579 0.68018633
샘플 73 췌장암 106 0.894991146 0.64158648
샘플 74 췌장암 없음 108.46 0.894120714 0.475836853
샘플 75 췌장암 115.6 0.902993927 0.998979834
샘플 76 췌장암 129.1 0.899321375 0.982501294
샘플 77 췌장암 130.68 0.897291974 0.919601629
샘플 78 췌장암 135 0.900280003 0.991774857
샘플 79 췌장암 137 0.897914688 0.949703939
샘플 80 췌장암 143.77 0.896104384 0.821898703
샘플 81 췌장암 144 0.903706446 0.999447782
샘플 82 췌장암 168.47 0.895571142 0.760946078
샘플 83 췌장암 176 0.894370774 0.557117459
샘플 84 췌장암 177.5 0.899277534 0.983480246
샘플 85 췌장암 186 0.895445651 0.748943699
샘플 86 췌장암 188.1 0.897717628 0.946930642
샘플 87 췌장암 220.5 0.896982419 0.914228079
샘플 88 췌장암 224 0.919640259 0.999999998
샘플 89 췌장암 없음 240.42 0.893134404 0.350260722
샘플 90 췌장암 262.77 0.894710346 0.659918805
샘플 91 췌장암 336.99 0.894246115 0.608474115
샘플 92 췌장암 343.9 0.902419155 0.99896672
샘플 93 췌장암 373.2 0.895090686 0.763845583
샘플 94 췌장암 440.56 0.895863768 0.871081972
샘플 95 췌장암 482.61 0.9049507 0.999891539
샘플 96 췌장암 488 0.898486446 0.983073316
샘플 97 췌장암 535 0.895516215 0.860450015
샘플 98 췌장암 612 0.899627853 0.994495239
샘플 99 췌장암 614.32 0.894139084 0.708835044
샘플 100 췌장암 670 0.896066317 0.924877247
샘플 101 췌장암 683.78 0.895653768 0.90140781
샘플 102 췌장암 685.45 0.894574595 0.797137754
샘플 103 췌장암 768.08 0.897972041 0.985166479
샘플 104 췌장암 771 0.899534971 0.995632513
샘플 105 췌장암 836.06 0.894752391 0.857851677
샘플 106 췌장암 849 0.899581479 0.996372589
샘플 107 췌장암 없음 890 0.895978159 0.946039423
샘플 108 췌장암 974 0.895617753 0.939479671
샘플 109 췌장암 1149.48 0.894835698 0.92166929
샘플 110 췌장암 1200 0.902355179 0.99979012
샘플 111 췌장암 1200 0.895694906 0.962211074
샘플 112 췌장암 1200 0.899999679 0.99866642
샘플 113 췌장암 1200 0.9 0.998666756
샘플 114 췌장암 1200 0.895848252 0.966355074
샘플 115 췌장암 1200 0.897055645 0.986692867
샘플 116 췌장암 1200 0.896997761 0.986082478
샘플 117 췌장암 1200 0.913242766 0.999999959
샘플 118 췌장암 1200 0.895900127 0.967655005
샘플 119 췌장암 1200 0.906476534 0.999991756
샘플 120 췌장암 1200 0.895385103 0.952296514
샘플 121 췌장암 1200 0.897975186 0.993492974
샘플 122 췌장암 1200 0.895608671 0.959669541
샘플 123 췌장암 1200 0.896923275 0.985256265
샘플 124 췌장암 1200 0.919058207 1
샘플 125 췌장암 1200 0.914971841 0.99999999
샘플 126 췌장암 1200 0.89445029 0.905474598
샘플 127 췌장암 1200 0.901561224 0.999608496
샘플 128 췌장암 1200 0.894385595 0.901034637
샘플 129 췌장암 1200 0.900253027 0.998906803
샘플 130 췌장암 1200 0.895601176 0.999999989
1-5: 전통적인 마커의 음성 샘플에서 분류 예측 모델의 성능
본 출원의 메틸화 마커 클러스터를 기반으로, 실시예 1-3에서 SVM에 의해 확립된 모델에 따라 전통적인 종양 마커 CA19-9(CA19-9 측정값 < 37)에 대해 음성인 샘플에 대해 테스트를 수행하였다.
해당 샘플의 CA19-9 측정치와 모델 예측값은 표 8에 나타내었으며, ROC 곡선은 도 8에 나타내었다. 또한 0.895를 점수 임계값로 사용하였을 때 테스트 세트의 AUC 값은 0.885에 이르렀다. CA19-9를 사용하여 구별할 수 없는 환자의 경우 실시예 3에서 구축한 SVM 모델이 여전히 비교적 좋은 결과를 얻을 수 있음을 알 수 있다.
SVM 모델의 CA19-9 측정 및 예측 점수
샘플 타입 CA19-9 측정 값 모델 CN
샘플 1 췌장암 없음 1 0.893229976
샘플 2 췌장암 없음 1 0.895013223
샘플 3 췌장암 없음 1 0.892840415
샘플 4 췌장암 2 0.894882888
샘플 5 췌장암 없음 2 0.893934677
샘플 6 췌장암 없음 2.38 0.896841445
샘플 7 췌장암 없음 2.6 0.894808228
샘플 8 췌장암 없음 2.73 0.893010572
샘플 9 췌장암 없음 3.09 0.894819319
샘플 10 췌장암 3.17 0.896054017
샘플 11 췌장암 없음 3.3 0.893751222
샘플 12 췌장암 없음 3.65 0.896663158
샘플 13 췌장암 3.8 0.895249143
샘플 14 췌장암 없음 4.16 0.893419513
샘플 15 췌장암 4.19 0.895766138
샘플 16 췌장암 없음 4.41 0.893661796
샘플 17 췌장암 4.61 0.898460015
샘플 18 췌장암 없음 4.63 0.894065433
샘플 19 췌장암 없음 4.8 0.894278734
샘플 20 췌장암 없음 4.88 0.894884278
샘플 21 췌장암 없음 6.4 0.8940632
샘플 22 췌장암 없음 7 0.893459631
샘플 23 췌장암 7 0.895074685
샘플 24 췌장암 없음 7.15 0.893856295
샘플 25 췌장암 7.41 0.897375182
샘플 26 췌장암 없음 7.44 0.892932686
샘플 27 췌장암 없음 8.6 0.893522949
샘플 28 췌장암 없음 9.57 0.893741741
샘플 29 췌장암 10.29 0.896724337
샘플 30 췌장암 없음 11 0.895068998
샘플 31 췌장암 없음 11.28 0.894510469
샘플 32 췌장암 없음 12.78 0.893866355
샘플 33 췌장암 없음 12.8 0.895936638
샘플 34 췌장암 없음 13 0.893616486
샘플 35 췌장암 14.05 0.894688627
샘플 36 췌장암 없음 14.79 0.894166762
샘플 37 췌장암 없음 15.65 0.894744381
샘플 38 췌장암 18.14 0.899065574
샘플 39 췌장암 18.47 0.894525057
샘플 40 췌장암 20 0.894148842
샘플 41 췌장암 없음 20.41 0.894683763
샘플 42 췌장암 21 0.901640955
샘플 43 췌장암 21.13 0.894788972
샘플 44 췌장암 없음 22 0.894274243
샘플 45 췌장암 없음 23.56 0.893406552
샘플 46 췌장암 23.57 0.895308274
샘플 47 췌장암 24.1 0.897357709
샘플 48 췌장암 24.26 0.894795724
샘플 49 췌장암 없음 24.67 0.893519373
샘플 50 췌장암 24.78 0.893550856
샘플 51 췌장암 30 0.896530196
샘플 52 췌장암 없음 32.67 0.894001953
샘플 53 췌장암 33.99 0.895663331
샘플 54 췌장암 35 0.89616556
1-6: 서열번호 9, 14, 13, 26, 40, 43, 52의 7개 마커 조합의 모델 구축 및 성능 평가
다양한 마커 조합의 예측 성능을 검증하기 위해, 본 출원의 56개 메틸화 마커 클러스터를 기반으로 모델 구성 및 성능 테스트를 위해 서열번호 9, 14, 13, 26, 40, 43, 52의 7개 마커를 선택했다. 훈련 그룹과 테스트 그룹을 나누어 훈련 그룹(샘플 1~117)의 샘플 117개와 테스트 그룹(샘플 118~174)의 샘플 57개로 구성했다.
7개의 메틸화 마커를 사용하여 두 샘플 그룹에 대한 훈련 세트에서 지원 벡터 머신 모델을 구성했다.
1. 샘플은 사전에 2개의 부분으로 나누어졌는데, 그중 하나의 부분은 모델 훈련에 사용되었고, 1부분은 모델 테스트에 사용되었다.
2. SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령줄: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(0.23.1)는 메틸화 값 데이터 매트릭스를 입력하여 SVM 모델 model.fit(x_train, y_train)을 구성하는 데 사용되고, 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타낸다.
3. 테스트 세트 데이터를 사용하여 테스트가 수행되었다. 위 모델은 테스트를 위해 테스트 세트로 가져왔다. 명령줄: test_pred = model.predict(test_df), 여기서 test_pred는 테스트 세트 샘플에 대해 이 예제에서 구성한 SVM 예측 모델에서 얻은 예측 점수를 나타내고, model은 이 예제에서 구성한 SVM 예측 모델을 나타내며, test_df는 테스트 세트 데이터를 나타낸다.
7-마커 조합 모델의 성능
그룹 AUC 값 민감도 특이도 임계값
훈련 세트 0.8586 0.7302 0.8519 0.5786
테스트 세트 0.8809 0.7742 0.8462 0.5786
1-7: 서열번호 5, 18, 34, 40, 43, 45, 46의 7개 마커 조합의 모델 구축 및 성능 평가
다양한 마커 조합의 예측 성능을 검증하기 위해, 본 출원의 56개 메틸화 마커 클러스터를 기반으로 모델 구축 및 성능 테스트를 위해 서열번호 5, 18, 34, 40, 43, 45, 46의 7개 마커를 선택했다. 훈련 그룹과 테스트 그룹을 나누어 훈련 그룹(샘플 1~117)의 샘플 117개와 테스트 그룹(샘플 118~174)의 샘플 57개로 구성했다.
7개의 메틸화 마커를 사용하여 두 샘플 그룹에 대한 훈련 세트에서 지원 벡터 머신 모델을 구성했다:
1. 샘플은 사전에 2개의 부분으로 나누어졌는데, 그 중 하나의 부분은 모델 훈련에 사용되었고, 다른 한 부분은 모델 테스트에 사용되었다.
2. SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령줄: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(0.23.1)는 메틸화 값 데이터 매트릭스를 입력하여 SVM 모델 model.fit(x_train, y_train)을 구성하는 데 사용된다. 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타낸다.
3. 테스트 세트 데이터를 사용하여 테스트가 수행되었다. 위 모델은 테스트를 위해 테스트 세트로 가져왔다. 명령줄: test_pred = model.predict(test_df), 여기서 test_pred는 테스트 세트 샘플에 대해 이 예제에서 구성한 SVM 예측 모델에서 얻은 예측 점수를 나타내고, model은 이 예제에서 구성한 SVM 예측 모델을 나타내며, test_df는 테스트 세트 데이터를 나타낸다.
이 7-마커 조합 모델의 ROC 곡선은 도 10에 나와 있다. 구성된 모델의 AUC는 0.881이다. 테스트 세트에서는 특이도가 0.692일 때 민감도가 0.839에 도달할 수 있어(표 10), 췌장암 환자와 건강한 사람에 대해 좋은 차별화 효과를 얻을 수 있었다.
7-마커 조합 모델의 성능
그룹 AUC 값 민감도 특이도 임계값
훈련 세트 0.8898 0.8095 0.8519 0.4179
테스트 세트 0.8809 0.8387 0.6923 0.4179
1-8: 서열번호 8, 11, 20, 44, 48, 51, 54의 7개 마커 조합의 모델 구축 및 성능 평가
다양한 마커 조합의 예측 성능을 검증하기 위해, 본 출원의 56개 메틸화 마커 클러스터를 기반으로 모델 구축 및 성능 테스트를 위해 서열번호 8, 11, 20, 44, 48, 51, 54 의 7개 마커를 선택했다. 훈련 그룹과 테스트 그룹을 나누어 훈련 그룹(샘플 1~117)의 샘플 117개와 테스트 그룹(샘플 118~174)의 샘플 57개로 구성했다.
7개의 메틸화 마커를 사용하여 두 샘플 그룹에 대한 훈련 세트에서 지원 벡터 머신 모델을 구성했다:
1. 샘플은 사전에 2개의 부분으로 나누어졌는데, 1부분은 모델 훈련에 사용되었고, 1부분은 모델 테스트에 사용되었다.
2. SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령줄: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(0.23.1)는 메틸화 값 데이터 매트릭스를 입력하여 SVM 모델 model.fit(x_train, y_train)을 구성하는 데 사용된다. 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타낸다.
3. 테스트 세트 데이터를 사용하여 테스트가 수행되었다. 위 모델은 테스트를 위해 테스트 세트로 가져왔다. 명령줄: test_pred = model.predict(test_df), 여기서 test_pred는 테스트 세트 샘플에 대해 이 예제에서 구성한 SVM 예측 모델에서 얻은 예측 점수를 나타내고, model은 이 예제에서 구성한 SVM 예측 모델을 나타내며, test_df는 테스트 세트 데이터를 나타낸다.
이 7-마커 조합 모델의 ROC 곡선은 도 11에 나와 있다. 구성된 모델의 AUC는 0.880이다. 테스트 세트에서는 특이도가 0.769일 때 민감도가 0.839에 도달할 수 있어(표 11), 췌장암 환자와 건강한 사람에 대해 좋은 차별화 효과를 얻을 수 있었다.
7-마커 조합 모델의 성능
그룹 AUC 값 민감도 특이도 임계값
훈련 세트 0.8812 0.7143 0.8519 0.4434
테스트 세트 0.8797 0.8387 0.7692 0.4434
1-9: 서열번호 8, 14, 26, 24, 31, 40, 46의 7개 마커 조합의 모델 구축 및 성능 평가
다양한 마커 조합의 예측 성능을 검증하기 위해, 본 출원의 56개 메틸화 마커 클러스터를 기반으로 모델 구축 및 성능 테스트를 위해 서열번호 8, 14, 26, 24, 31, 40, 46 의 7개 마커를 선택했다. 훈련 그룹과 테스트 그룹을 나누어 훈련 그룹(샘플 1~117)의 샘플 117개와 테스트 그룹(샘플 118~174)의 샘플 57개로 구성했다.
7개의 메틸화 마커를 사용하여 두 샘플 그룹에 대한 훈련 세트에서 지원 벡터 머신 모델을 구성했다:
1. 샘플은 사전에 2개의 부분으로 나누어졌는데, 1부분은 모델 훈련에 사용되었고, 1부분은 모델 테스트에 사용되었다.
2. SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령줄: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(0.23.1)는 메틸화 값 데이터 매트릭스를 입력하여 SVM 모델 model.fit(x_train, y_train)을 구성하는 데 사용된다. 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타낸다.
3. 테스트 세트 데이터를 사용하여 테스트가 수행되었다. 위 모델은 테스트를 위해 테스트 세트로 가져왔다. 명령줄: test_pred = model.predict(test_df), 여기서 test_pred는 테스트 세트 샘플에 대해 이 예제에서 구성한 SVM 예측 모델에서 얻은 예측 점수를 나타내고, model은 이 예제에서 구성한 SVM 예측 모델을 나타내며, test_df는 테스트 세트 데이터를 나타낸다.
이 7-마커 조합 모델의 ROC 곡선은 도 12에 나와 있다. 구성된 모델의 AUC는 0.871이다. 테스트 세트에서는 특이도가 0.885일 때 민감도가 0.710에 도달할 수 있어(표 12), 췌장암 환자와 건강한 사람에 대해 좋은 차별화 효과를 얻을 수 있었다.
7-마커 조합 모델의 성능
그룹 AUC 값 민감도 특이도 임계값
훈련 세트 0.8745 0.6984 0.8519 0.5380
테스트 세트 0.8710 0.7097 0.8846 0.5380
1-10: 서열번호 3, 9, 8, 29, 42, 40, 41의 7개 마커 조합의 모델 구축 및 성능 평가
다양한 마커 조합의 예측 성능을 검증하기 위해, 본 출원의 56개 메틸화 마커 클러스터를 기반으로 모델 구축 및 성능 테스트를 위해 서열번호 3, 9, 8, 29, 42, 40, 41의 7개 마커를 선택했다. 훈련 그룹과 테스트 그룹을 나누어 훈련 그룹(샘플 1~117)의 샘플 117개와 테스트 그룹(샘플 118~174)의 샘플 57개로 구성했다.
7개의 메틸화 마커를 사용하여 두 샘플 그룹에 대한 훈련 세트에서 지원 벡터 머신 모델을 구성했다:
1. 샘플은 사전에 2개의 부분으로 나누어졌는데, 1부분은 모델 훈련에 사용되었고, 1부분은 모델 테스트에 사용되었다.
2. SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령줄: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(0.23.1)는 메틸화 값 데이터 매트릭스를 입력하여 SVM 모델 model.fit(x_train, y_train)을 구성하는 데 사용된다. 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타낸다.
3. 테스트 세트 데이터를 사용하여 테스트가 수행되었다. 위 모델은 테스트를 위해 테스트 세트로 가져왔다. 명령줄: test_pred = model.predict(test_df), 여기서 test_pred는 테스트 세트 샘플에 대해 이 예제에서 구성한 SVM 예측 모델에서 얻은 예측 점수를 나타내고, model은 이 예제에서 구성한 SVM 예측 모델을 나타내며, test_df는 테스트 세트 데이터를 나타낸다.
이 7-마커 조합 모델의 ROC 곡선은 도 13에 나와 있다. 구성된 모델의 AUC는 0.866이다. 테스트 세트에서는 특이도가 0.538일 때 민감도가 0.903에 도달할 수 있어(표 13), 췌장암 환자와 건강한 사람에 대해 좋은 차별화 효과를 얻을 수 있었다.
7-마커 조합 모델의 성능
그룹 AUC 값 민감도 특이도 임계값
훈련 세트 0.8930 0.8413 0.8519 0.4014
테스트 세트 0.8660 0.9032 0.5385 0.4014
1-11: 서열번호 5, 8, 19, 7, 44, 47, 53의 7개 마커 조합의 모델 구축 및 성능 평가
다양한 마커 조합의 예측 성능을 검증하기 위해, 본 출원의 56개 메틸화 마커 클러스터를 기반으로 모델 구축 및 성능 테스트를 위해 서열번호 5, 8, 19, 7, 44, 47, 53의 7개 마커를 선택했다. 훈련 그룹과 테스트 그룹을 나누어 훈련 그룹(샘플 1~117)의 샘플 117개와 테스트 그룹(샘플 118~174)의 샘플 57개로 구성했다.
7개의 메틸화 마커를 사용하여 두 샘플 그룹에 대한 훈련 세트에서 지원 벡터 머신 모델을 구성했다:
1. 샘플은 사전에 2개의 부분으로 나누어졌는데, 1부분은 모델 훈련에 사용되었고, 1부분은 모델 테스트에 사용되었다.
2. SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령줄: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(0.23.1)는 메틸화 값 데이터 매트릭스를 입력하여 SVM 모델 model.fit(x_train, y_train)을 구성하는 데 사용된다. 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타낸다.
3. 테스트 세트 데이터를 사용하여 테스트가 수행되었다. 위 모델은 테스트를 위해 테스트 세트로 가져왔다. 명령줄: test_pred = model.predict(test_df), 여기서 test_pred는 테스트 세트 샘플에 대해 이 예제에서 구성한 SVM 예측 모델에서 얻은 예측 점수를 나타내고, model은 이 예제에서 구성한 SVM 예측 모델을 나타내며, test_df는 테스트 세트 데이터를 나타낸다.
이 7-마커 조합 모델의 ROC 곡선은 도 14에 나와 있다. 구성된 모델의 AUC는 0.864이다. 테스트 세트에서는 특이도가 0.577일 때 민감도가 0.774에 도달할 수 있어(표 14), 췌장암 환자와 건강한 사람에 대해 좋은 차별화 효과를 얻을 수 있었다.
7-마커 조합 모델의 성능
그룹 AUC 값 민감도 특이도 임계값
훈련 세트 0.8704 0.6984 0.8519 0.4803
테스트 세트 0.8635 0.7742 0.5769 0.4803
1-12: 서열번호 12, 17, 24, 28, 40, 42, 47의 7개 마커 조합의 모델 구축 및 성능 평가
다양한 마커 조합의 예측 성능을 검증하기 위해, 본 출원의 56개 메틸화 마커 클러스터를 기반으로 모델 구축 및 성능 테스트를 위해 서열번호 12, 17, 24, 28, 40, 42, 47의 7개 마커를 선택했다. 훈련 그룹과 테스트 그룹을 나누어 훈련 그룹(샘플 1~117)의 샘플 117개와 테스트 그룹(샘플 118~174)의 샘플 57개로 구성했다.
7개의 메틸화 마커를 사용하여 두 샘플 그룹에 대한 훈련 세트에서 지원 벡터 머신 모델을 구성했다:
1. 샘플은 사전에 2개의 부분으로 나누어졌는데, 1부분은 모델 훈련에 사용되었고, 1부분은 모델 테스트에 사용되었다.
2. SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령줄: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(0.23.1)는 메틸화 값 데이터 매트릭스를 입력하여 SVM 모델 model.fit(x_train, y_train)을 구성하는 데 사용된다. 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타낸다.
3. 테스트 세트 데이터를 사용하여 테스트가 수행되었다. 위 모델은 테스트를 위해 테스트 세트로 가져왔다. 명령줄: test_pred = model.predict(test_df), 여기서 test_pred는 테스트 세트 샘플에 대해 이 예제에서 구성한 SVM 예측 모델에서 얻은 예측 점수를 나타내고, model은 이 예제에서 구성한 SVM 예측 모델을 나타내며, test_df는 테스트 세트 데이터를 나타낸다.
이 7-마커 조합 모델의 ROC 곡선은 도 15에 나와 있다. 구성된 모델의 AUC는 0.862이다. 테스트 세트에서는 특이도가 0.731일 때 민감도가 0.871에 도달할 수 있어(표 15), 췌장암 환자와 건강한 사람에 대해 좋은 차별화 효과를 얻을 수 있었다.
7-마커 조합 모델의 성능
그룹 AUC 값 민감도 특이도 임계값
훈련 세트 0.8859 0.8571 0.8519 0.4514
테스트 세트 0.8623 0.8710 0.7308 0.4514
1-13: 서열번호 5, 18, 14, 10, 8, 19, 27의 7개 마커 조합의 모델 구축 및 성능 평가
다양한 마커 조합의 예측 성능을 검증하기 위해, 본 출원의 56개 메틸화 마커 클러스터를 기반으로 모델 구축 및 성능 테스트를 위해 서열번호 5, 18, 14, 10, 8, 19, 27의 7개 마커를 선택했다. 훈련 그룹과 테스트 그룹을 나누어 훈련 그룹(샘플 1~117)의 샘플 117개와 테스트 그룹(샘플 118~174)의 샘플 57개로 구성했다.
7개의 메틸화 마커를 사용하여 두 샘플 그룹에 대한 훈련 세트에서 지원 벡터 머신 모델을 구성했다:
1. 샘플은 사전에 2개의 부분으로 나누어졌는데, 1부분은 모델 훈련에 사용되었고, 1부분은 모델 테스트에 사용되었다.
2. SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령줄: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(0.23.1)는 메틸화 값 데이터 매트릭스를 입력하여 SVM 모델 model.fit(x_train, y_train)을 구성하는 데 사용된다. 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타낸다.
3. 테스트 세트 데이터를 사용하여 테스트가 수행되었다. 위 모델은 테스트를 위해 테스트 세트로 가져왔다. 명령줄: test_pred = model.predict(test_df), 여기서 test_pred는 테스트 세트 샘플에 대해 이 예제에서 구성한 SVM 예측 모델에서 얻은 예측 점수를 나타내고, model은 이 예제에서 구성한 SVM 예측 모델을 나타내며, test_df는 테스트 세트 데이터를 나타낸다.
이 7-마커 조합 모델의 ROC 곡선은 도 16에 나와 있다. 구성된 모델의 AUC는 0.859이다. 테스트 세트에서는 특이도가 0.615일 때 민감도가 0.839에 도달할 수 있어(표 16), 췌장암 환자와 건강한 사람에 대해 좋은 차별화 효과를 얻을 수 있었다.
7-마커 조합 모델의 성능
그룹 AUC 값 민감도 특이도 임계값
훈련 세트 0.8510 0.6667 0.8519 0.4123
테스트 세트 0.8586 0.8387 0.6154 0.4124
1-14: 서열번호 6, 12, 20, 26, 24, 47, 50의 7개 마커 조합의 모델 구축 및 성능 평가
다양한 마커 조합의 예측 성능을 검증하기 위해, 본 출원의 56개 메틸화 마커 클러스터를 기반으로 모델 구축 및 성능 테스트를 위해 서열번호 6, 12, 20, 26, 24, 47, 50의 7개 마커를 선택했다. 훈련 그룹과 테스트 그룹을 나누어 훈련 그룹(샘플 1~117)의 샘플 117개와 테스트 그룹(샘플 118~174)의 샘플 57개로 구성했다.
7개의 메틸화 마커를 사용하여 두 샘플 그룹에 대한 훈련 세트에서 지원 벡터 머신 모델을 구성했다:
1. 샘플은 사전에 2개의 부분으로 나누어졌는데, 1부분은 모델 훈련에 사용되었고, 1부분은 모델 테스트에 사용되었다.
2. SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령줄: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(0.23.1)는 메틸화 값 데이터 매트릭스를 입력하여 SVM 모델 model.fit(x_train, y_train)을 구성하는 데 사용된다. 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타낸다.
3. 테스트 세트 데이터를 사용하여 테스트가 수행되었다. 위 모델은 테스트를 위해 테스트 세트로 가져왔다. 명령줄: test_pred = model.predict(test_df), 여기서 test_pred는 테스트 세트 샘플에 대해 이 예제에서 구성한 SVM 예측 모델에서 얻은 예측 점수를 나타내고, model은 이 예제에서 구성한 SVM 예측 모델을 나타내며, test_df는 테스트 세트 데이터를 나타낸다.
이 7-마커 조합 모델의 ROC 곡선은 도 17에 나와 있다. 구성된 모델의 AUC는 0.857이다. 테스트 세트에서는 특이도가 0.846일 때 민감도가 0.774에 도달할 수 있어(표 17), 췌장암 환자와 건강한 사람에 대해 좋은 차별화 효과를 얻을 수 있었다.
7-마커 조합 모델의 성능
그룹 AUC 값 민감도 특이도 임계값
훈련 세트 0.8695 0.6984 0.8519 0.5177
테스트 세트 0.8573 0.7742 0.8462 0.5177
1-15: 서열번호 1, 19, 27, 34, 37, 46, 47의 7개 마커 조합의 모델 구축 및 성능 평가
다양한 마커 조합의 예측 성능을 검증하기 위해, 본 출원의 56개 메틸화 마커 클러스터를 기반으로 모델 구축 및 성능 테스트를 위해 서열번호 1, 19, 27, 34, 37, 46, 47의 7개 마커를 선택했다. 훈련 그룹과 테스트 그룹을 나누어 훈련 그룹(샘플 1~117)의 샘플 117개와 테스트 그룹(샘플 118~174)의 샘플 57개로 구성했다.
7개의 메틸화 마커를 사용하여 두 샘플 그룹에 대한 훈련 세트에서 지원 벡터 머신 모델을 구성했다:
1. 샘플은 사전에 2개의 부분으로 나누어졌는데, 1부분은 모델 훈련에 사용되었고, 1부분은 모델 테스트에 사용되었다.
2. SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(0.23.1)는 훈련 모델을 구성하고 훈련 모델의 훈련 모드, 명령줄: 모델 = SVR()을 교차 검증하는 데 사용된다.
b) sklearn 소프트웨어 패키지(0.23.1)는 메틸화 값 데이터 매트릭스를 입력하여 SVM 모델 model.fit(x_train, y_train)을 구성하는 데 사용된다. 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타낸다.
3. 테스트 세트 데이터를 사용하여 테스트가 수행되었다. 위 모델은 테스트를 위해 테스트 세트로 가져왔다. 명령줄: test_pred = model.predict(test_df), 여기서 test_pred는 테스트 세트 샘플에 대해 이 예제에서 구성한 SVM 예측 모델에서 얻은 예측 점수를 나타내고, model은 이 예제에서 구성한 SVM 예측 모델을 나타내며, test_df는 테스트 세트 데이터를 나타낸다.
이 7-마커 조합 모델의 ROC 곡선은 도 18에 나와 있다. 구성된 모델의 AUC는 0.856이다. 테스트 세트에서는 특이도가 0.808일 때 민감도가 0.742에 도달할 수 있어(표 18), 췌장암 환자와 건강한 사람에 대해 좋은 차별화 효과를 얻을 수 있었다.
7-마커 조합 모델의 성능
그룹 AUC 값 민감도 특이도 임계값
훈련 세트 0.8492 0.6508 0.8519 0.5503
테스트 세트 0.8561 0.7419 0.8077 0.5503
이 연구에서는 혈장 cfDNA에서 관련 유전자의 메틸화 수준을 사용하여 췌장암이 없는 대상자의 혈장과 췌장암이 있는 대상자의 혈장 간의 차이를 연구하고 유의미한 차이가 있는 56개의 메틸화 핵산 단편을 선별했다. 상기 메틸화 핵산 단편 마커 클러스터를 기반으로 서포트 벡터 머신 방법을 통해 췌장암 위험도 예측 모델을 구축하였으며, 이는 높은 민감도와 특이도로 췌장암을 효과적으로 식별할 수 있으며, 췌장암의 스크리닝 및 진단에 적합하다.
실시예 2
2-1: 표적 메틸화 시퀀싱을 통한 췌장암의 차별적인 메틸화 부위 스크리닝
발명자는 췌장암 환자 94명, 만성 췌장염 환자 25명으로부터 혈액 샘플을 수집했으며, 모든 환자는 사전 동의서에 서명했다. 췌장암 환자는 이전에 췌장염 진단을 받은 적이 있었다. 샘플 정보는 하기 표를 참조:
혈장 DNA의 메틸화 서열분석 데이터는 MethylTitan 분석을 통해 얻어서 그 안에 있는 메틸화 분류 마커를 확인했다. 프로세스는 다음과 같다.
1. 혈장 cfDNA 샘플 추출
Streck 혈액 수집 튜브를 사용하여 환자로부터 2 ml 전혈 샘플을 수집하고 적시에(3일 이내) 원심분리하여 혈장을 분리한 후 실험실로 운반한 후 지침에 따라 QIAGEN QIAamp 순환 핵산 키트를 사용하여 cfDNA를 추출했다.
2. 시퀀싱 및 데이터 전처리
1) 라이브러리는 Illumina Nextseq 500 시퀀서를 사용하여 페어드 엔드 시퀀싱되었다.
2) Pear(v0.6.0) 소프트웨어는 Illumina Hiseq X10/Nextseq 500/Nova seq 시퀀서의 동일한 페어드 엔드 150bp 시퀀싱 단편의 페어드 엔드 시퀀싱 데이터를 하나의 시퀀스로 결합했으며, 가장 짧은 중첩 길이는 20bp이고 결합 후 가장 짧은 길이는 30bp이다.
3) Trim_galore v 0.6.0 및 cutadapt v1.8.1 소프트웨어를 사용하여 결합된 시퀀싱 데이터에서 어댑터 제거를 수행했다. 어댑터 서열 "AGATCGGAAGAGCAC"은 서열의 5' 말단에서 제거되었으며, 양쪽 말단에서 서열분석 품질 값이 20보다 낮은 염기가 제거되었다.
3. 시퀀싱 데이터 정렬
여기에 사용된 참조 게놈 데이터는 UCSC 데이터베이스에서 가져온 것이다(UCSC: HG19, hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz).
1) 먼저 Bismark 소프트웨어를 이용하여 HG19를 시토신에서 티민(CT), 아데닌에서 구아닌(GA)으로 변환시키고, Bowtie2 소프트웨어를 이용하여 변환된 게놈에 대한 인덱스를 구축하였다.
2) 전처리된 데이터 역시 CT와 GA로 변환되었다.
3) 변환된 서열을 Bowtie2 소프트웨어를 사용하여 변환된 HG19 참조 게놈에 정렬했다. 최소 시드 시퀀스 길이는 20이었고 시드 시퀀스에는 불일치가 허용되지 않았다.
4. MHF 계산
각 타겟 영역 HG19의 CpG 사이트에 대해 위의 정렬 결과를 바탕으로 각 사이트에 해당하는 메틸화 수준을 구했다. 본 명세서의 부위의 뉴클레오티드 번호 매기기는 HG19의 뉴클레오티드 위치 번호 매기기에 해당한다. 하나의 표적 메틸화 영역은 여러 개의 메틸화 일배체형을 가질 수 있다. 이 값은 표적 지역의 각 메틸화된 일배체형에 대해 계산되어야 한다. MHF 계산식의 예는 다음과 같다.
여기서 i는 표적 메틸화 영역을 나타내고, h는 표적 메틸화 일배체형을 나타내고, Ni는 표적 메틸화 영역에 위치한 판독 수를 나타내고, Ni, h는 표적 메틸화 일배체형을 포함하는 판독 수를 나타낸다.
5. 메틸화 데이터 매트릭스
1) 훈련 세트와 테스트 세트의 각 샘플의 메틸화 시퀀싱 데이터를 데이터 매트릭스로 결합하고, 깊이가 200 미만인 각 사이트를 결측값으로 취했다.
2) 결측값 비율이 10%를 넘는 사이트는 삭제되었다.
3) 데이터 행렬의 누락된 값에 대해서는 KNN 알고리즘을 사용하여 누락된 데이터를 보간(interpolate)했다.
6. 훈련 세트 샘플 그룹을 기반으로 특징 메틸화 세그먼트 발견
1) 표현형과 관련하여 각 메틸화 세그먼트에 대해 로지스틱 회귀 모델을 구축하고 각 증폭된 표적 영역에 대해 가장 유의한 회귀 계수를 갖는 메틸화 세그먼트를 선별하여 후보 메틸화 세그먼트를 형성했다.
2) 훈련 세트는 10겹 교차 검증 증분 특징 선택을 위해 무작위로 10개 부분으로 나누어졌다.
3) 각 지역의 후보 메틸화 세그먼트를 회귀계수의 유의도에 따라 내림차순으로 순위를 정하고, 매번 하나의 메틸화 세그먼트의 데이터를 추가하여 테스트 데이터를 예측하였다.
4) 3)단계에서는 2)단계에서 생성된 데이터의 복사본 10개를 사용하였다. 각 데이터 사본에 대해 10회 계산을 수행했으며 최종 AUC는 10회 계산의 평균이었다. 훈련 데이터의 AUC가 증가하면 후보 메틸화 세그먼트는 특징 메틸화 세그먼트로 유지되고, 그렇지 않으면 폐기된다.
5) 훈련 세트의 다양한 특징 수에 따른 평균 AUC 중앙값에 해당하는 특징 조합을 특징 메틸화 세그먼트의 최종 조합으로 사용했다.
HG19에서 선택된 특징적인 메틸화 마커의 분포는 다음과 같다: SIX3 유전자 영역의 서열번호 57, TLX2 유전자 영역의 서열번호 58, CILP2 유전자 영역의 서열번호 59. 췌장암 환자의 cfDNA에서는 위 메틸화 마커의 수준이 증가하거나 감소했다(표 19). 상기 3개 마커 영역의 서열은 서열번호 57-59에 제시되어 있다. 각 마커 영역의 모든 CpG 부위의 메틸화 수준은 MethylTitan 서열분석을 통해 얻을 수 있다. 각 지역의 모든 CpG 부위의 평균 메틸화 수준과 단일 CpG 부위의 메틸화 상태는 모두 췌장암 진단을 위한 지표로 사용될 수 있다.
훈련 세트의 DNA 메틸화 마커의 메틸화 수준
서열번호 마커 췌장암 만성 췌장염
서열번호 57 염색체2:45028785-45029307 0.843731054 0.909570522
서열번호 58 염색체2:74742834-74743351 0.953274962 0.978544302
서열번호 59 염색체19:19650745-19651270 0.408843665 0.514101315
테스트 세트에서 췌장암 환자와 만성 췌장염 환자의 메틸화 마커의 메틸화 수준은 표 20에 나와 있다. 표에서 볼 수 있듯이, 메틸화 표지자의 메틸화 정도 분포는 췌장암 환자와 만성 췌장염 환자 사이에서 유의미한 차이를 보여, 좋은 구별 효과를 보였다.
테스트 세트의 DNA 메틸화 마커의 메틸화 수준
서열번호 마커 췌장암 만성 췌장염
서열번호 57 염색체2:45028785-45029307 0.843896661 0.86791556
서열번호 58 염색체2:74742834-74743351 0.926459851 0.954493044
서열번호 59 염색체19:19650745-19651270 0.399831579 0.44918572
표 21에는 10개의 무작위 CpG 부위 또는 이들의 조합의 메틸화 수준과 각 선택된 마커의 전체 마커의 메틸화 수준 사이의 상관관계(피어슨 상관 계수) 및 해당 유의성 p 값이 나열되어 있다. 마커 내 단일 CpG 부위의 메틸화 상태나 수준 또는 여러 CpG 부위의 조합이 전체 영역의 메틸화 수준과 유의한 상관관계를 갖고(p<0.05), 상관계수도 모두 0.8 이상임을 알 수 있다. 이러한 강력하거나 매우 강한 상관관계는 마커 내 단일 CpG 부위 또는 여러 CpG 부위의 조합이 전체 마커와 동일한 우수한 차별화 효과를 가짐을 나타낸다.
무작위 CpG 부위 또는 여러 부위의 조합의 메틸화 수준과 3개 마커의 전체 마커의 메틸화 수준 사이의 상관관계
CpG 사이트 또는 조합 서열번호 훈련 세트 상관관계 훈련 세트 p-값 테스트 세트 상관관계 테스트 세트 p-값
염색체2:45029035 서열번호 57 0.8383 6.6E-09 0.8471 0.000000135
염색체2:45029063 서열번호 57 0.8484 1.27E-09 0.826 0.0000608
염색체2:45029065 서열번호 57 0.8054 3.46E-10 0.8369 0.0000478
염색체2:45029046,45029057,45029060 서열번호 57 0.841 8.33E-11 0.8126 0.00899
염색체2:45029060 서열번호 57 0.8241 5.78E-11 0.8165 2.35E-10
염색체2:45029117 서열번호 57 0.8356 8.54E-12 0.807 0.000834
염색체2:45029057,45029060 서열번호 57 0.8333 6.19E-13 0.8267 0.00138
염색체2:45029046,45029057 서열번호 57 0.808 2.16E-16 0.8315 0.00114
염색체2:45029057 서열번호 57 0.802 3.89E-19 0.8436 0.000000177
염색체2:45029046 서열번호 57 0.846 5.23E-23 0.835 3.86E-11
염색체2:74743119,74743121 서열번호 58 0.8015 3.49E-18 0.9822 1.82E-28
염색체2:74743108,74743111 서열번호 58 0.8043 1.52E-18 0.9864 1.32E-30
염색체2:74743111,74743119 서열번호 58 0.8204 8.06E-19 0.9827 1.02E-28
염색체2:74743082 서열번호 58 0.8363 5.84E-19 0.981 6.15E-28
염색체2:74743073 서열번호 58 0.8064 1.77E-19 0.9843 1.69E-29
염색체2:74743119 서열번호 58 0.814 4.38E-20 0.9806 8.97E-28
염색체2:74743111 서열번호 58 0.8145 3.96E-20 0.9465 9.07E-20
염색체2:74743056 서열번호 58 0.8277 2.91E-21 0.9769 2.04E-26
염색체2:74743084 서열번호 58 0.8488 2.74E-23 0.9796 2.09E-27
염색체2:74743101 서열번호 58 0.8695 1.31E-25 0.9954 2.39E-39
염색체19:19650995,19650997,19651001 서열번호 59 0.8255 7.66E-11 0.8212 0.00244
염색체19:19650981,19650995 서열번호 59 0.8171 5.11E-11 0.8408 0.0000518
염색체19:19650997,19651001,19651008 서열번호 59 0.8171 2.2E-11 0.8359 0
염색체19:19650995,19650997 서열번호 59 0.8072 3.37E-12 0.8039 0.0000337
염색체19:19651008 서열번호 59 0.8159 1.73E-13 0.841 0.00000824
염색체19:19651001,19651008 서열번호 59 0.8437 5.21E-14 0.8282 0.00422
염색체19:19650997,19651001 서열번호 59 0.8378 1.5E-14 0.8279 0.00205
염색체19:19650997 서열번호 59 0.8195 4.64E-16 0.8127 2.29E-08
염색체19:19650995 서열번호 59 0.8211 3.26E-16 0.807 0.000000707
염색체19:19651001 서열번호 59 0.8342 4.93E-17 0.8118 2.58E-09
2-2: 단일 메틸화 마커의 예측 성능
췌장염과 췌장암을 구별하는 단일 메틸화 마커의 능력을 검증하기 위해 단일 메틸화 마커의 메틸화 수준 값을 사용하여 단일 마커의 예측 성능을 검증했다.
먼저, 3개의 메틸화 마커의 메틸화 수준 값을 췌장암과 췌장염을 구별하기 위한 임계값, 민감도 및 특이성을 결정하기 위한 훈련에 사용하기 위한, 훈련 세트 샘플에서 별도로 사용했다. 그런 다음 임계값을 사용하여 테스트 세트에 있는 샘플의 민감도와 특이성을 통계적으로 분석했다. 그 결과를 하기 표 22에 나타내었으며, 단일 마커로도 좋은 차별화 성능을 달성할 수 있음을 알 수 있다.
56개 단일 메틸화 마커의 예측 성능
마커 그룹 AUC 값 민감도 특이도 임계값
서열번호 57 훈련 세트 0.8870 0.7937 0.8824 0.8850
서열번호 57 테스트 세트 0.6532 0.7742 0.3750 0.8850
서열번호 58 훈련 세트 0.8497 0.6508 0.8824 0.9653
서열번호 58 테스트 세트 0.6210 0.8065 0.5000 0.9653
서열번호 59 훈련 세트 0.8301 0.4286 0.8824 0.3984
서열번호 59 테스트 세트 0.6694 0.5806 0.6250 0.3984
2-3: 분류 예측 모델 구축
훈련 그룹에서 마커 DNA 메틸화 수준(예: 메틸화 일배체형 분획)을 이용하여 췌장암 환자와 만성 췌장염 환자를 분류하는 잠재적인 능력을 검증하기 위해, 훈련 그룹에서는 3개의 DNA 메틸화 마커의 조합을 기반으로 지원 벡터 기계 질병 분류 모델을 구축하고 테스트군에서 이 DNA 메틸화 마커 클러스터의 분류 예측 효과를 검증했다. 훈련 그룹과 테스트 그룹을 비율에 따라 나누어 훈련 그룹(샘플 1~80)에 80개의 샘플, 테스트 그룹(샘플 80~119)에 39개의 샘플을 포함했다.
발견된 DNA 메틸화 마커를 사용하여 두 샘플 그룹 모두에 대한 훈련 세트에서 지원 벡터 머신 모델을 구축했다.
1) 샘플은 사전에 2개 부분으로 나누어졌고, 그 중 하나의 부분은 모델 훈련에 사용되었고, 다른 한 부분은 모델 테스트에 사용되었다.
2) 메틸화 마커를 이용한 췌장암 식별 가능성을 활용하기 위해 유전자 마커를 기반으로 한 질병 분류 시스템이 개발되었다. SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(v0.23.1)를 사용하여 훈련 모델을 구성하고 훈련 모델의 훈련 모드를 교차 검증한다. 명령줄: model = SVR().
b) sklearn 소프트웨어 패키지(v0.23.1)를 사용하여 메틸화 값 데이터 매트릭스를 입력하여 SVM 모델 model.fit(x_train, y_train)을 구성한다. 여기서 x_train은 훈련 세트 데이터 매트릭스를 나타내고, y_train은 훈련 세트의 표현형 정보를 나타낸다.
모델을 구축하는 과정에서 췌장암 유형은 1로 코딩하였고, 만성췌장염 유형은 0으로 코딩하였다. sklearn 소프트웨어 패키지(v0.23.1)로 모델을 구성하는 과정에서 임계값은 기본적으로 0.897로 설정되었다. 마지막으로 구축된 모델은 췌장암과 췌장염을 구별하기 위한 점수 임계값으로 0.897을 사용했다. 훈련 세트 샘플에 대한 두 모델의 예측 점수는 표 23에 나와 있다.
훈련 세트 내 모델의 예측 점수
샘플 타입 점수 샘플 타입 점수
샘플 1 췌장암 0.906363896 샘플 41 췌장암 0.895671254
샘플 2 췌장암 0.898088428 샘플 42 췌장암 0.917370358
샘플 3 췌장암 0.96514133 샘플 43 췌장암 0.899939907
샘플 4 췌장암 0.947218787 샘플 44 만성 췌장염 0.819877173
샘플 5 만성 췌장염 0.814559896 샘플 45 췌장암 0.864307914
샘플 6 췌장암 0.899770509 샘플 46 췌장암 0.97794434
샘플 7 췌장암 1.171999028 샘플 47 만성 췌장염 0.786462108
샘플 8 췌장암 0.896938646 샘플 48 만성 췌장염 0.646721483
샘플 9 만성 췌장염 0.760177073 샘플 49 췌장암 0.911479846
샘플 10 만성 췌장염 0.887726067 샘플 50 췌장암 0.899897548
샘플 11 췌장암 0.531337905 샘플 51 췌장암 0.824992525
샘플 12 췌장암 0.90484915 샘플 52 만성 췌장염 0.245182024
샘플 13 만성 췌장염 0.898855566 샘플 53 췌장암 0.924471595
샘플 14 췌장암 0.972688399 샘플 54 췌장암 1.034876438
샘플 15 췌장암 0.898868258 샘플 55 췌장암 1.099788336
샘플 16 만성 췌장염 0.898883166 샘플 56 췌장암 0.89944059
샘플 17 췌장암 0.899875594 샘플 57 만성 췌장염 0.211506728
샘플 18 췌장암 0.902123447 샘플 58 췌장암 0.899895698
샘플 19 췌장암 0.898527925 샘플 59 췌장암 0.91285525
샘플 20 췌장암 0.992521216 샘플 60 췌장암 0.893568369
샘플 21 만성 췌장염 0.678536161 샘플 61 췌장암 0.929428735
샘플 22 췌장암 0.943101949 샘플 62 췌장암 0.865378859
샘플 23 췌장암 0.893582535 샘플 63 만성 췌장염 0.23424179
샘플 24 췌장암 0.846727508 샘플 64 췌장암 1.03871855
샘플 25 췌장암 0.993891187 샘플 65 췌장암 1.001209954
샘플 26 췌장암 1.09987453 샘플 66 췌장암 0.981189452
샘플 27 췌장암 0.900023617 샘플 67 만성 췌장염 0.593205453
샘플 28 췌장암 0.919070531 샘플 68 췌장암 0.905930493
샘플 29 췌장암 0.910053964 샘플 69 췌장암 1.100033741
샘플 30 췌장암 0.886760785 샘플 70 췌장암 1.100772446
샘플 31 췌장암 0.91917744 샘플 71 췌장암 0.898821581
샘플 32 췌장암 0.975091185 샘플 72 만성 췌장염 0.869308711
샘플 33 췌장암 0.900548389 샘플 73 췌장암 0.6730075
샘플 34 췌장암 0.8981704 샘플 74 췌장암 1.037048136
샘플 35 췌장암 1.009222108 샘플 75 췌장암 0.972542948
샘플 36 췌장암 1.322966423 샘플 76 췌장암 0.933799461
샘플 37 만성 췌장염 0.874263052 샘플 77 췌장암 1.016413808
샘플 38 만성 췌장염 0.706851745 샘플 78 췌장암 1.243523664
샘플 39 만성 췌장염 0.762970982 샘플 79 췌장암 0.899887112
샘플 40 췌장암 0.950107015 샘플 80 췌장암 0.892289956
2-4: 분류 예측 모델 테스트
앞서 언급한 췌장암 및 췌장염 대상자의 혈액 시료를 이용하여 MethylTitan 시퀀싱을 수행하였고, 시퀀싱 결과에 나타나는 특징적인 메틸화 마커 신호를 기반으로 PCA, 클러스터링 등의 분류 분석을 수행하였다.
본 출원의 메틸화 마커 클러스터를 기반으로 실시예 2-3에서 SVM에 의해 확립된 모델에 따라 테스트 세트에서 예측하였다. 예측 함수를 사용하여 테스트 세트를 예측하여 예측 결과를 출력했다(질병 확률: 기본 점수 임계값는 0.897이며, 점수가 0.897보다 크면 췌장산 환자로 간주하고, 그렇지 않으면 만성 췌장염 환자로 간주함). 테스트 그룹에는 57개의 샘플(샘플 118~174)이 있었고, 계산 과정은 다음과 같다:
명령줄:
test_pred = model.predict(test_df)
여기서 test_pred는 실시예 2-3에서 구축한 SVM 예측 모델을 이용하여 얻은 테스트 세트 내 샘플들의 예측 점수를 나타내고, model은 실시예 2-3에서 구축한 SVM 예측 모델을 나타내며, test_df는 테스트 세트 데이터를 나타낸다.
실험군의 예측 점수는 표 24과 같다. ROC 곡선은 도 19에 나타내었다. 예측 점수 분포는 도 20에 나타내었다. 시험군의 전체 AUC 아래 면적은 0.847이었다. 훈련 세트에서 특이도가 88.2%일 때 이 모델의 민감도는 88.9%에 도달하였다. 테스트 세트에서 특이도가 87.5%일 때 민감도는 74.2%에 도달할 수 있었다. 선택된 변수에 의해 확립된 SVM 모델의 차별화 효과가 좋은 것을 알 수 있다.
도 21 및 22는 각각 훈련 그룹과 시험 그룹에서의 3가지 메틸화 마커의 분포를 보여준다. 췌장염 환자의 혈장과 췌장암 환자의 혈장에서 이러한 메틸화 마커 클러스터의 차이는 비교적 안정적임을 알 수 있다.
테스트 세트 샘플에 대한 모델 예측 점수
샘플 번호 타입 점수 샘플 번호 타입 점수
샘플 81 만성 췌장염 0.610488911 샘플 101 췌장암 15.62766141
샘플 82 췌장암 0.912018264 샘플 102 췌장암 0.909976179
샘플 83 췌장암 0.870225426 샘플 103 췌장암 0.92289051
샘플 84 췌장암 0.897368929 샘플 104 췌장암 1.823319531
샘플 85 췌장암 1.491556374 샘플 105 췌장암 0.913625979
샘플 86 췌장암 0.99785215 샘플 106 췌장암 0.730447081
샘플 87 췌장암 0.909901733 샘플 107 췌장암 0.900701224
샘플 88 췌장암 0.955726751 샘플 108 만성 췌장염 0.893221308
샘플 89 췌장암 0.96582068 샘플 109 만성 췌장염 0.899073184
샘플 90 췌장암 0.910414113 샘플 110 만성 췌장염 0.783284566
샘플 91 췌장암 0.850903621 샘플 111 만성 췌장염 0.725251615
샘플 92 췌장암 0.916651697 샘플 112 췌장암 0.893141436
샘플 93 만성 췌장염 0.904231501 샘플 113 췌장암 1.354991317
샘플 94 췌장암 0.764872522 샘플 114 췌장암 0.817727331
샘플 95 췌장암 1.241367038 샘플 115 췌장암 1.079401681
샘플 96 만성 췌장염 0.897789105 샘플 116 췌장암 0.969607597
샘플 97 만성 췌장염 0.852404121 샘플 117 췌장암 0.878877727
샘플 98 췌장암 1.068601129 샘플 118 췌장암 0.911801452
샘플 99 췌장암 3.715591125 샘플 119 췌장암 0.934497862
샘플 100 췌장암 0.920532374
2-5: 종양 표지자 음성인 환자에 대한 예측 효과
본 출원의 메틸화 마커 클러스터에 기초하여, 종양 마커 CA19-9에 대해 음성인 환자(< 37)를 실시예 2-3에서 SVM에 의해 확립된 모델에 따라 구별하였다.
실험군의 예측점수는 표 25에 나타내었고, ROC 곡선은 도 23에 나타내었다. 전통적인 종양 표지자 CA19-9로 구별할 수 없는 환자의 경우에도, 구축된 SVM 모델을 통해 좋은 결과를 얻을 수 있음을 알 수 있다.
SVM 모델의 CA19-9 측정 및 예측 점수
샘플 CA19-9 모델 점수 타입
샘플 1 30.3 0.21151 만성 췌장염
샘플 2 28.35 0.23424 만성 췌장염
샘플 3 26.21 0.87426 만성 췌장염
샘플 4 4.19 0.97794 췌장암
샘플 5 18.47 0.67301 췌장암
샘플 6 3.17 0.91286 췌장암
샘플 7 1 0.59321 만성 췌장염
샘플 8 2.61 0.81456 만성 췌장염
샘플 9 2 0.91148 췌장암
샘플 10 2.57 0.67854 만성 췌장염
샘플 11 24.26 0.84673 췌장암
샘플 12 5 0.24518 만성 췌장염
샘플 13 33.99 0.89817 췌장암
샘플 14 7 0.86931 만성 췌장염
샘플 15 21.13 0.86431 췌장암
샘플 16 3.8 0.92447 췌장암
샘플 17 23.57 0.97269 췌장암
샘플 18 20 0.89357 췌장암
샘플 19 18.14 0.91737 췌장암
샘플 20 14.05 1.00922 췌장암
샘플 21 35 1.172 췌장암
샘플 22 6 0.89322 만성 췌장염
샘플 23 2.42 0.90423 만성 췌장염
샘플 24 10.29 1.0794 췌장암
샘플 25 4.61 0.8509 췌장암
샘플 26 5.56 0.89907 만성 췌장염
샘플 27 24.78 0.87888 췌장암
샘플 28 7.41 1.0686 췌장암
샘플 29 24.1 1.82332 췌장암
샘플 30 7 0.73045 췌장암
샘플 31 1 0.8524 만성 췌장염
샘플 32 30 0.91363 췌장암
샘플 33 21 0.9345 췌장암
이 연구에서는 혈장 cfDNA의 메틸화 마커의 메틸화 수준을 사용하여 만성 췌장염 환자의 혈장과 췌장암 환자의 혈장 간의 차이를 연구하고 유의미한 차이가 있는 3개의 DNA 메틸화 마커를 선별했다.상기 DNA 메틸화 마커 클러스터를 기반으로 서포트 벡터 머신(support vector machine) 방식을 통해 악성 췌장암 위험 예측 모델을 구축하였고, 이는 높은 민감도와 특이도로 췌장암 환자와 만성췌장염 환자를 효과적으로 구별할 수 있으며, 만성췌장염 환자의 췌장암 선별 및 진단에 적합함을 확인하였다.
실시예 3
3-1: 표적 메틸화 시퀀싱을 통한 췌장암 특이적인 메틸화 부위 스크리닝
연령과 성별이 일치하여 총 110개의 췌장암 혈액 샘플과 췌장암이 없는 110개의 샘플을 수집했다. 등록된 모든 환자는 사전 동의서에 서명했다. 샘플 정보는 표 3-1에 나와 있다.
훈련 세트 테스트 세트
샘플 타입
췌장암 69 41
췌장암 없음 63 47
나이
64 (33-89) 65 (43-81)
성별
남성 80 52
여성 52 36
병리학적 단계
I 17 10
II 24 7
III 또는 IV 15 18
NA 13 6
본 출원은 DNA 메틸화 마커의 클러스터를 제공한다. 환자의 혈장 시료에서 DNA 메틸화 마커의 메틸화 수준을 검출하고, 상기 검출된 메틸화 수준 데이터는 췌장암 환자와 건강한 사람을 구별하는 진단 모델에 따라 점수를 예측하는 데 사용되며, 조기 검진 시 더 높은 정확도와 저렴한 비용으로 췌장암을 조기 진단한다는 목적을 달성한다.1. 샘플 cfDNA 추출
모든 혈액 샘플은 Streck 튜브에 수집되었으며 혈장을 추출하기 위해 혈액 샘플을 먼저 1600g, 4℃에서 10분간 원심분리했다. 버피코트층의 손상을 방지하기 위해서는 부드러운 제동모드 설정이 필요했다. 그런 다음 상등액을 새로운 1.5 ml 원뿔형 튜브로 옮기고 16000g, 4℃에서 10분간 원심분리했다. 상청액을 다시 새로운 1.5 ml 원뿔형 튜브로 옮기고 -80℃에서 보관했다.
순환 무세포 DNA(cfDNA)를 추출하기 위해, 혈장 분취량을 해동하고 제조업체의 지침에 따라 QIAamp 순환 핵산 추출 키트(Qiagen 55114)를 사용하여 즉시 처리했다. 추출된 cfDNA 농도는 qubit3.0을 이용하여 정량하였다.
2. 중아황산염 변환 및 라이브러리 준비
시토신 염기의 중아황산나트륨 변환은 중아황산염 변환 키트(ThermoFisher, MECOV50)를 사용하여 수행되었다. 제조업체의 지침에 따라 20ng의 게놈 DNA 또는 ctDNA가 다운스트림 적용을 위해 변환 및 정제되었다.
샘플 DNA 추출, 품질 검사, DNA 상의 비메틸화 시토신을 구아닌과 결합하지 않는 염기로 변환하는 과정을 진행했다. 하나 이상의 실시양태에서, 상기 변환은 효소적 방법, 바람직하게는 데아미나제를 처리하여 수행될 수 있고; 또는 상기 변환은 비효소적 방법, 바람직하게는 중아황산수소 또는 중황산염으로 처리, 더욱 바람직하게는 중아황산칼슘, 중아황산나트륨, 중아황산칼륨, 중아황산암모늄, 중황산나트륨, 중황산칼륨 및 중황산암모늄으로 처리하여 수행될 수 있다.
라이브러리는 MethylTitan(특허번호: CN201910515830) 방법을 사용하여 구축되었다. MethylTitan 방법은 다음과 같다. 중아황산염 의해 변환된 DNA는 탈인산화된 후 분자 태그(UMI)가 있는 범용 Illumina 시퀀싱 어댑터에 결찰되었다. 두 번째 가닥 합성 및 정제 후, 변환된 DNA는 필요한 표적 영역의 표적 증폭을 위해 반표적 PCR 반응을 거쳤다. 다시 정제한 후 PCR 반응을 통해 샘플별 바코드와 전체 길이 Illumina 시퀀싱 어댑터를 표적 DNA 분자에 추가했다. 그런 다음 Illumina의 KAPA 라이브러리 정량화 키트(KK4844)를 사용하여 최종 라이브러리를 정량화하고 Illumina 시퀀서에서 시퀀싱했다. MethylTitan 라이브러리 구축 방법은 더 적은 양의 DNA, 특히 cfDNA로 필요한 타겟 단편을 효과적으로 풍부하게 할 수 있고, 이 방법은 또한 본래 DNA의 메틸화 상태를 잘 보존할 수 있으며 궁극적으로 인접한 CpG 메틸화 시토신(특정 대상에는 해당 지역에 따라 몇 개에서 수십 개의 CpG가 있을 수 있음)을 분석함으로써 개별 염기의 상태를 비교하는 대신 해당 특정 영역의 전체 메틸화 패턴이 고유한 마커 역할을 할 수 있다.
3. 시퀀싱 및 데이터 전처리
1) Illumina Hiseq 2500 시퀀서를 사용하여 페어드 엔드 시퀀싱을 수행했다. 시퀀싱 볼륨은 샘플당 25-35M이었다. Illumina Hiseq 2500 시퀀서의 페어드 엔드 150bp 시퀀싱 데이터는 Trim_galore v 0.6.0 및 cutadapt v2.1 소프트웨어를 사용하여 어댑터 제거를 거쳤다. 리드 1의 3' 말단에 있는 어댑터 서열 "AGATCGGAAGAGCACACGTCTGAACTCCAGTC"가 제거되었고, 리드 2의 3' 말단에 있는 어댑터 서열 "AGATCGGAAGAGCGTCGTGTA GGGAAAGAGTGT"가 제거되었으며, 시퀀싱 품질이 20 미만인 염기가 양쪽 끝에서 제거되었다. 5' 끝에 3bp 어댑터 시퀀스가 있는 경우 전체 리드가 제거된다. 30개 염기보다 짧은 리드들도 어댑터 제거 후 제거되었다.
2) 페어드 엔드 시퀀스는 Pear v0.9.6 소프트웨어를 사용하여 단일 엔드 시퀀스로 결합되었다. 최소 20개 염기만큼 겹치는 양쪽 끝의 리드를 결합하고, 결합된 리드가 30개 염기보다 짧은 경우 폐기된다.
4. 시퀀싱 데이터 비교
본 출원에 사용된 참조 게놈 데이터는 UCSC 데이터베이스(UCSC: hg19, hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)에서 얻었다.
1) 먼저 Bismark 소프트웨어를 이용하여 hg19를 시토신에서 티민(CT), 아데닌에서 구아닌(GA)으로 변환시키고, Bowtie2 소프트웨어를 이용하여 변환된 게놈에 대한 인덱스를 구축하였다.
2) 전처리된 데이터도 CT, GA 변환을 거쳤다.
3) 변환된 서열을 Bowtie2 소프트웨어를 사용하여 변환된 HG19 참조 게놈에 정렬했다. 최소 시드 시퀀스 길이는 20이었고 시드 시퀀스에는 불일치가 허용되지 않았다.
5. 메틸화 정보 추출
각 타겟 영역 hg19의 CpG 사이트에 대해 위 정렬 결과를 바탕으로 각 사이트에 해당하는 메틸화 수준을 구했다. 본 발명에 관련된 부위의 뉴클레오티드 넘버링은 hg19의 뉴클레오티드 위치 넘버링과 일치한다.
메틸화 일배체형 분율(methylated haplotype fraction; MHF)을 계산하기 위해, 각 타겟 영역 hg19의 CpG 사이트에 대해, 위의 비교 결과를 바탕으로 리드 내 각 사이트에 해당하는 염기서열을 구했다. 여기서 C는 이 부위에서 메틸화가 발생함을 나타내고, T는 이 부위의 메틸화되지 않은 상태를 나타낸다. 본 명세서에 기재된 부위의 뉴클레오티드 번호 매기기는 HG19의 뉴클레오티드 위치 번호 매기기에 해당한다. 하나의 표적 메틸화 영역은 여러 개의 메틸화 일배체형을 가질 수 있다. 이 값은 표적 지역의 각 메틸화된 일배체형에 대해 계산되어야 한다. MHF 계산식의 예는 다음과 같다:
여기서 i는 표적 메틸화 영역을 나타내고, h는 표적 메틸화 일배체형을 나타내고, Ni는 표적 메틸화 영역에 위치한 읽기 수를 나타내며, Ni,h는 표적 메틸화 일배체형을 포함하는 읽기 수를 나타낸다.
2) 평균 메틸화 수준(average methylation level; AMF) 계산과 관련하여 각 목표 지역에 대해 해당 지역 내 평균 메틸화 수준을 계산한다. 공식은 다음과 같다:
Figure pct00017
여기서 m은 대상의 총 CpG 사이트 수이고, i는 해당 지역의 각 CpG 사이트이다. NC,i는 염기이 T인 CpG 사이트에서의 리드 수(즉, 이 사이트에서 메틸화된 리드 수)이다. NT,i는 염기가 T인 CpG 사이트의 리드 수(즉, 이 사이트에서 메틸화되지 않은 시퀀싱 리드 수)이다.
6. 특징 매트릭스 구축
1) 훈련 세트와 테스트 세트의 샘플의 메틸화 일배체형 분율(MHF)과 평균 메틸화 분율(AMF)의 데이터를 각각 데이터 매트릭스로 결합하고, 깊이가 200 미만인 각 사이트는 누락된 값으로 간주하였다.
2) 결측값 비율이 10%를 넘는 사이트는 삭제되었다.
3) 데이터 매트릭스의 누락된 값에 대해서는 KNN 알고리즘을 사용하여 누락된 데이터를 보간(interpolate)했다. 먼저 KNN 알고리즘에 의한 훈련 세트를 이용하여 보간기(interpolator)를 훈련시킨 후 훈련 훈련 행렬과 테스트 세트 행렬을 각각 보간하였다.
7. 특징 매트릭스에 따른 메틸화 마커 스크리닝(도 1)
1) 훈련 세트를 무작위로 3개로 나누어 로지스틱 회귀 모델을 구축하고, 각 목표 영역의 평균 AUC를 계산하고, 각 목표 영역별로 AUC가 가장 큰 특징을 해당 영역의 대표 특징으로 선정하고, AUC에 따라 내림차순으로 순위를 매겼다.
2) 상기 훈련 세트는 10겹 교차 검증 증분 특징 선택을 위해 무작위로 10개 부분으로 나누어졌다. 구체적인 프로세스는 다음과 같다: 훈련 세트의 데이터 일부를 테스트 데이터로 따로 설정하고, 훈련 세트의 나머지 데이터를 훈련 데이터로 설정한다. 위의 순서에 따라 각 지역의 대표 특징을 특징 조합에 반영하고, 테스트 데이터를 예측하기 위해 9개의 훈련 데이터를 이용하여 로지스틱 회귀 모델을 구축한다. 10회 반복 후 테스트 데이터의 평균 AUC를 계산한다.
3) 훈련 데이터의 AUC가 증가하면 메틸화 마커가 유지되고, 그렇지 않으면 제거된다. 상기 사이클 이후에 획득된 특징 조합은 메틸화 마커 조합으로 사용되었으며 모든 훈련 세트 데이터를 사용하여 새로운 모델을 훈련하고 테스트 세트 데이터를 사용하여 검증했다.
총 101개의 메틸화 마커가 선별되었다. 유전자 주석에는 GREAT 도구(great.stanford.edu/great/public-3.0.0/html/index.php)가 사용되었다(표 27 참조). GREAT 분석에서는 마커 영역이 인접한 유전자와 상관관계가 있었고, 인접한 유전자가 있는 영역에는 주석이 달렸다. 상관 관계는 두 가지 프로세스로 나누어졌다. 먼저, 각 유전자의 조절 도메인을 찾아낸 후, 이 영역의 조절 도메인을 포괄하는 유전자가 이 영역과 상관관계가 있음을 확인했다.
예를 들어, ARHGEF16(-60,185) 및 PRDM16(+325,030)은 각각 ARHGEF16 유전자의 전사 시작 부위(TSS)에서 60,185bp 상류에 있고, PRDM16 유전자의 전사 시작 부위(TSS)에서 325,030bp 하류에 있는 마커를 나타낸다.
메틸화 마커 유전자 및 위치
일련번호 염색체(chr) 시작 위치 끝 위치 유전자 주석
서열번호 60 염색체1 3310705 3310905 ARHGEF16 (-60,185), PRDM16 (+325,030)
서열번호 61 염색체1 61520321 61520632 NFIA (-27,057)
서열번호 62 염색체1 77333096 77333296 ST6GALNAC5 (+70)
서열번호 63 염색체1 170630461 170630661 PRRX1 (-2,486)
서열번호 64 염색체1 180202481 180202846 LHX4 (+3,243), ACBD6 (+269,425)
서열번호 65 염색체1 240161230 240161455 FMN2 (-93,837), 염색체M3 (+368,970)
서열번호 66 염색체2 468096 468607 FAM150B (-180,056), TMEM18 (+209,087)
서열번호 67 염색체2 469568 469933 FAM150B (-181,455), TMEM18 (+207,688)
서열번호 68 염색체2 45155938 45156214 SIX3 (-12,826), CAMKMT (+566,973)
서열번호 69 염색체2 63285937 63286137 OTX1 (+8,100), WDPCP (+529,896)
서열번호 70 염색체2 63286154 63286354 OTX1 (+8,317), WDPCP (+529,679)
서열번호 71 염색체2 72371208 72371433 CYP26B1 (+3,846), DYSF (+677,489)
서열번호 72 염색체2 177043062 177043477 HOXD1 (-10,037), HOXD4 (+27,320)
서열번호 73 염색체2 238864855 238865085 UBE2F (-10,627), RAMP1 (+96,783)
서열번호 74 염색체3 49459532 49459732 AMT (+554)
서열번호 75 염색체3 147109862 147110062 PLSCR5 (-785,959), ZIC4 (+12,109)
서열번호 76 염색체3 179754913 179755264 PEX5L (-371)
서열번호 77 염색체3 185973717 185973917 ETV5 (-146,916), DGKG (+106,209)
서열번호 78 염색체3 192126117 192126324 FGF12 (+617)
서열번호 79 염색체4 1015773 1015973 FGFRL1 (+12,106), RNF212 (+91,441)
서열번호 80 염색체4 3447856 3448097 DOK7 (-17,061), HGFAC (+4,363)
서열번호 81 염색체4 5710006 5710312 EVC (-2,765), EVC2 (+135)
서열번호 82 염색체4 8859842 8860042 HMX1 (+13,601), CPZ (+265,555)
서열번호 83 염색체5 3596560 3596842 IRX1 (+533)
서열번호 84 염색체5 3599720 3599934 IRX1 (+3,659)
서열번호 85 염색체5 37840176 37840376 GDNF (-4,347)
서열번호 86 염색체5 76249591 76249791 AGGF1 (-76,519), CRHBP (+1,153)
서열번호 87 염색체5 134364359 134364559 PITX1 (+5,529), CATSPER3 (+60,863)
서열번호 88 염색체5 134870613 134870990 NEUROG1 (+837)
서열번호 89 염색체5 170742525 170742728 NPM1 (-72,025), TLX3 (+6,339)
서열번호 90 염색체5 172659554 172659918 NKX2-5 (+2,624), BNIP1 (+88,291)
서열번호 91 염색체5 177411431 177411827 PROP1 (+11,614), B4GALT7 (+384,528)
서열번호 92 염색체6 391439 391639 IRF4 (-200)
서열번호 93 염색체6 1378941 1379141 FOXF2 (-11,028), FOXQ1 (+66,366)
서열번호 94 염색체6 1625294 1625494 FOXC1 (+14,713), GMDS (+620,532)
서열번호 95 염색체6 40308768 40308968 MOCS1 (-413,413), LRFN2 (+246,336)
서열번호 96 염색체6 99291616 99291816 POU3F2 (+9,136), FBXL4 (+104,086)
서열번호 97 염색체6 167544878 167545117 CCR6 (+8,741), GPR31 (+26,819)
서열번호 98 염색체7 35297370 35297570 TBX20 (-3,712)
서열번호 99 염색체7 35301095 35301411 TBX20 (-7,495), HERPUD2 (+433,492)
서열번호 100 염색체7 158937005 158937205 VIPR2 (+544)
서열번호 101 염색체8 20375580 20375780 LZTS1 (-214,206)
서열번호 102 염색체8 23564023 23564306 NKX2-6 (-54)
서열번호 103 염색체8 23564051 23564251 NKX2-6 (-40)
서열번호 104 염색체8 57358434 57358672 PENK (+36)
서열번호 105 염색체8 70983528 70983793 PRDM14 (-99)
서열번호 106 염색체8 99986831 99987031 VPS13B (-38,563), OSR2 (+30,261)
서열번호 107 염색체9 126778194 126778644 NEK6 (-241,823), LHX2 (+4,530)
서열번호 108 염색체10 74069147 74069510 DDIT4 (+35,651), DNAJB12 (+45,578)
서열번호 109 염색체10 99790636 99790963 CRTAC1 (-215)
서열번호 110 염색체10 102497304 102497504 PAX2 (-8,064), HIF1AN (+201,788)
서열번호 111 염색체10 103986463 103986663 ELOVL3 (+478)
서열번호 112 염색체10 105036590 105036794 INA (-228)
서열번호 113 염색체10 124896740 124897020 HMX2 (-10,758), HMX3 (+1,402)
서열번호 114 염색체10 124905504 124905704 HMX2 (-2,034)
서열번호 115 염색체10 130084908 130085108 MKI67 (-160,359)
서열번호 116 염색체10 134016194 134016408 DPYSL4 (+15,897), STK32C (+105,143)
서열번호 117 염색체11 2181981 2182295 INS (+296), INS-IGF2 (+301)
서열번호 118 염색체11 2292332 2292651 ASCL2 (-310)
서열번호 119 염색체11 31839396 31839726 PAX6 (-52)
서열번호 120 염색체11 73099779 73099979 RELT (+12,570), FAM168A (+209,349)
서열번호 121 염색체11 132813724 132813924 OPCML (-258)
서열번호 122 염색체12 52311647 52311991 ACVR1B (-33,666), ACVRL1 (+10,617)
서열번호 123 염색체12 63544037 63544348 AVPR1A (+529)
서열번호 124 염색체12 113902107 113902307 LHX5 (+7,670), SDSL (+42,165)
서열번호 125 염색체13 111186630 111186830 RAB20 (+27,350), COL4A2 (+227,116)
서열번호 126 염색체13 111277395 111277690 CARKD (+9,535), CARS2 (+80,961)
서열번호 127 염색체13 112711391 112711603 SOX1 (-10,416), TEX29 (+738,482)
서열번호 128 염색체13 112758741 112758954 SPACA7 (-271,785), SOX1 (+36,935)
서열번호 129 염색체13 112759950 112760185 SPACA7 (-270,565), SOX1 (+38,155)
서열번호 130 염색체14 36986598 36986864 SFTA3 (-3,697)
서열번호 131 염색체14 60976665 60976952 SIX6 (+1,140), SIX1 (+139,371)
서열번호 132 염색체14 105102449 105102649 INF2 (-53,425), TMEM179 (-30,565)
서열번호 133 염색체14 105933655 105933855 CRIP2 (-5,544), MTA1 (+47,596)
서열번호 134 염색체15 68114350 68114550 PIAS1 (-232,067), SKOR1 (+2,408)
서열번호 135 염색체15 68121381 68121679 PIAS1 (-224,987), SKOR1 (+9,488)
서열번호 136 염색체15 68121923 68122316 PIAS1 (-224,397), SKOR1 (+10,078)
서열번호 137 염색체15 76635120 76635744 ISL2 (+6,367), SCAPER (+562,244)
서열번호 138 염색체15 89952386 89952646 POLG (-74,438), RHCG (+87,328)
서열번호 139 염색체15 96856960 96857162 NR2F2 (-16,885)
서열번호 140 염색체16 630128 630451 RAB40C (-9,067), PIGQ (+10,272)
서열번호 141 염색체16 57025884 57026193 CPNE2 (-100,480), NLRC5 (+2,629)
서열번호 142 염색체16 67919979 67920237 PSKH1 (-7,067), NRN1L (+1,400)
서열번호 143 염색체17 2092044 2092244 SRR (-114,854), HIC1 (+132,540)
서열번호 144 염색체17 46796653 46796853 HOXB9 (-92,914), PRAC1 (+3,131)
서열번호 145 염색체17 73607909 73608115 SMIM5 (-24,663), MYO15B (+9,414)
서열번호 146 염색체17 75369368 75370149 TNRC6C (-631,378), SEPT9 (+92,267)
서열번호 147 염색체17 80745056 80745446 TBCD (+35,311), ZNF750 (+53,203)
서열번호 148 염색체18 24130835 24131035 KCTD1 (-1,536)
서열번호 149 염색체18 76739171 76739371 SALL3 (-1,004)
서열번호 150 염색체18 77256428 77256628 CTDP1 (-183,273), NFATC1 (+96,192)
서열번호 151 염색체19 2800642 2800863 ZNF554 (-19,119), THOP1 (+15,295)
서열번호 152 염색체19 3688030 3688230 CACTIN (-61,317), PIP5K1C (+12,347)
서열번호 153 염색체19 4912069 4912269 KDM4B (-56,963), PLIN3 (-44,389)
서열번호 154 염색체19 16511819 16512143 EPS15L1 (+70,842), KLF2 (+76,353)
서열번호 155 염색체19 55593132 55593428 EPS8L1 (+6,011), PPP1R12C (+35,647)
서열번호 156 염색체20 21492735 21492935 NKX2-4 (-114,169), NKX2-2 (+1,829)
서열번호 157 염색체20 55202107 55202685 TFAP2C (-1,962)
서열번호 158 염색체20 55925328 55925530 RAE1 (-637)
서열번호 159 염색체20 62330559 62330808 TNFRSF6B (+2,663), ARFRP1 (+8,326)
서열번호 160 염색체22 36861325 36861709 MYH9 (-77,454), TXN2 (+16,560)
췌장암 cfDNA에서는 메틸화 마커 영역의 메틸화 수준이 증가하거나 감소했다(표 28 참조). 획득된 101개의 메틸화 마커의 서열은 서열번호 60-160에 제시되어 있다. 각 메틸화 마커의 모든 CpG 부위의 메틸화 수준은 MethylTitan 메틸화 서열분석을 통해 얻을 수 있다. 각 지역의 모든 CpG 부위의 평균 메틸화 수준과 단일 CpG 부위의 메틸화 수준은 모두 췌장암의 지표로 사용될 수 있다.
훈련 세트와 테스트 세트의 췌장암 메틸화 마커의 메틸화 수준
일련번호 훈련 세트의 췌장암 메틸화 수준 훈련 세트의 비췌장암 메틸화 수준 훈련 세트 P 값 테스트 세트의 췌장암 메틸화 수준 테스트 세트의 비췌장암 메틸화 수준 테스트 세트 P 값
서열번호 60 0.82373067 0.85751849 1.09E-06 0.81966101 0.86497135 1.85E-06
서열번호 61 0.00422647 0.00338352 2.31E-06 0.00448467 0.0034 3.39E-06
서열번호 62 0.02252656 0.01623844 8.95E-09 0.02307998 0.01837146 5.91E-05
서열번호 63 0.00275101 0.0008819 1.78E-07 0.00218178 0.00098158 3.84E-05
서열번호 64 0.00900877 0.00363731 1.06E-06 0.00829831 0.0033292 2.57E-05
서열번호 65 0.00435137 0.00069153 2.39E-07 0.00448689 0.00093841 2.69E-06
서열번호 66 0.003317 0.00098353 2.17E-07 0.00499834 0.00131321 7.90E-06
서열번호 67 0.23967459 0.1789925 2.69E-15 0.22905332 0.18176365 8.82E-12
서열번호 68 0.00551876 0.00120337 2.26E-08 0.00615114 0.00199402 1.35E-05
서열번호 69 0.0028249 0.00014991 4.26E-07 0.00161653 0.00019708 0.00014527
서열번호 70 0.00215817 0.00022747 2.64E-06 0.00336076 0.00016595 2.57E-06
서열번호 71 0.01125176 0.00552721 1.96E-07 0.01066098 0.00614414 0.0001233
서열번호 72 0.00178729 0.00068784 6.68E-07 0.00204761 0.00076546 8.65E-05
서열번호 73 0.02428677 0.01554514 4.13E-08 0.02244006 0.01573139 2.99E-07
서열번호 74 0.15087918 0.18430182 2.56E-05 0.1401783 0.19419159 7.91E-08
서열번호 75 0.01181004 0.00330796 4.57E-07 0.01300735 0.00486442 2.09E-05
서열번호 76 0.00385356 0.00115473 6.70E-07 0.00401929 0 2.85E-05
서열번호 77 0.31717172 0.4071511 7.06E-11 0.32853186 0.40697674 5.15E-11
서열번호 78 0.06244796 0.0430622 1.12E-08 0.06029757 0.0443996 5.91E-05
서열번호 79 0.00658467 0.00397489 2.47E-09 0.00594278 0.0042785 0.00106348
서열번호 80 0.00252685 0.00165901 2.68E-09 0.002439 0.00163347 1.06E-08
서열번호 81 0.01846223 0.01303351 6.52E-07 0.01987061 0.01217915 6.07E-06
서열번호 82 0.02265101 0.01278805 5.96E-09 0.02482182 0.01380227 3.83E-08
서열번호 83 0.01178647 0.0018438 1.08E-08 0.0063001 0.00202986 2.79E-05
서열번호 84 0.02212389 0.00787402 1.33E-06 0.02136752 0.00584795 4.18E-05
서열번호 85 0.03535918 0.02680765 2.54E-09 0.0324843 0.02897168 0.00816849
서열번호 86 0.01393244 0.01099045 4.80E-07 0.01403699 0.01061595 8.33E-05
서열번호 87 0.01704967 0.0071599 1.43E-06 0.01854305 0.00815047 1.85E-06
서열번호 88 0.00498337 0.00174847 2.92E-09 0.00454174 0.00201865 2.31E-07
서열번호 89 0.00499213 0.0027002 1.31E-06 0.0062411 0.00252838 4.54E-09
서열번호 90 0.00719424 0.00204499 1.91E-08 0.00791139 0.00298211 0.00059236
서열번호 91 0.02641691 0.02068176 1.89E-08 0.02458021 0.02120684 0.00201115
서열번호 92 0.19890261 0.16853385 3.96E-07 0.2186405 0.17086591 6.17E-09
서열번호 93 0.0192147 0.00066711 2.57E-08 0.01620746 0.00132275 1.48E-05
서열번호 94 0.00049287 1.86E-05 2.01E-07 0.00054266 1.56E-05 4.36E-10
서열번호 95 0.03361345 0.01538462 2.03E-05 0.04918033 0.01709402 1.67E-08
서열번호 96 0.00476161 0.00130935 7.06E-11 0.00471794 0.00146201 3.24E-06
서열번호 97 0.97061224 0.98041834 1.09E-08 0.97198599 0.9787234 0.00019375
서열번호 98 0.0052702 0.00166204 9.26E-07 0.00514466 0.00189901 9.81E-06
서열번호 99 0.00521032 0.00145114 1.99E-08 0.00409251 0.00165181 0.00014007
서열번호 100 0.02294348 0.01429529 8.26E-09 0.02465555 0.01431193 1.70E-05
서열번호 101 0.09486781 0.19602978 1.48E-11 0.09484536 0.18716578 6.10E-11
서열번호 102 0.02619601 0.0163879 9.09E-08 0.03325942 0.0169506 1.35E-08
서열번호 103 0.02634016 0.01619835 9.09E-08 0.0331343 0.01694769 1.71E-08
서열번호 104 0.00997314 0.00283686 3.43E-07 0.01249569 0.00342328 0.00010828
서열번호 105 0.00252237 0.00045651 6.68E-07 0.00282189 0.00059216 2.09E-05
서열번호 106 0.00114108 4.26E-05 5.40E-07 0.0015606 5.32E-05 5.47E-05
서열번호 107 0.00856073 0.00256246 3.42E-07 0.00990099 0.003861 1.71E-05
서열번호 108 0.28023407 0.21170732 5.36E-11 0.29900839 0.22271147 2.42E-09
서열번호 109 0.0424092 0.02860803 1.14E-08 0.0439036 0.02844689 1.16E-07
서열번호 110 0.00064526 0.00031037 1.01E-07 0.00060562 0.00032366 2.37E-05
서열번호 111 0.10916922 0.24085613 1.15E-09 0.11234316 0.22166523 0.00016195
서열번호 112 0.01485662 0.01099437 3.27E-07 0.01536 0.01093863 4.68E-05
서열번호 113 0.02176625 0.00244362 1.71E-09 0.02520301 0.00399935 1.61E-08
서열번호 114 0.00831202 0.00121359 8.87E-08 0.00878906 0.0032 6.71E-05
서열번호 115 0.02676277 0.0191044 6.89E-10 0.02404265 0.01881775 1.32E-05
서열번호 116 0.25073206 0.21964051 2.33E-08 0.24941397 0.21802935 2.45E-06
서열번호 117 0.00134224 0.00040418 2.52E-08 0.00091536 0.00034119 0.00019375
서열번호 118 0.00458594 0.00015011 1.34E-06 0.00552597 0.00010777 6.39E-07
서열번호 119 0.00336652 0.00180542 2.33E-08 0.00334388 0.0018575 0.00044407
서열번호 120 0.2578125 0.52083333 1.94E-13 0.27027027 0.49545455 6.27E-09
서열번호 121 0.01818182 0 8.02E-08 0.01290323 0.00346021 7.04E-05
서열번호 122 0.15543203 0.25349825 1.01E-07 0.1346129 0.2294904 3.67E-07
서열번호 123 0.01204819 0.00274725 1.07E-06 0.02216066 0.00373134 1.83E-06
서열번호 124 0.03231732 0.02511309 2.63E-10 0.03114808 0.0260203 1.21E-06
서열번호 125 0.00566397 0.00307994 7.41E-09 0.0050168 0.00365739 0.00445114
서열번호 126 0.94678614 0.9583787 2.68E-14 0.94469098 0.95835066 5.12E-13
서열번호 127 0.04160247 0.01156069 2.83E-07 0.03602058 0.01886792 0.00011515
서열번호 128 0.01030928 0.00208189 8.11E-08 0.00888395 0.00349895 3.53E-05
서열번호 129 0.00392456 0.00169606 3.72E-08 0.00359362 0.00217744 0.00028516
서열번호 130 0.01060305 0.00228571 3.80E-08 0.00975434 0.00317209 4.28E-06
서열번호 131 0.00224463 0.00128461 6.61E-06 0.00256043 0.00115094 1.29E-07
서열번호 132 0.01117031 0.00897862 2.83E-07 0.01085661 0.00884113 1.63E-05
서열번호 133 0.93196174 0.94088746 5.34E-08 0.93135784 0.94047703 7.88E-09
서열번호 134 0.00669344 0 1.54E-09 0.00437158 0 2.48E-05
서열번호 135 0.00465319 0.00065683 7.05E-06 0.00613092 0.0008653 1.36E-07
서열번호 136 0.00909091 0.00067705 1.32E-09 0.00813008 0.00148588 7.00E-07
서열번호 137 0.02396804 0.00646552 9.40E-10 0.02583026 0.01020408 3.88E-06
서열번호 138 0.0003891 8.64E-05 1.61E-06 0.00055372 0.00011055 1.02E-05
서열번호 139 0.1598513 0.21118012 7.25E-07 0.17195767 0.21818182 3.02E-05
서열번호 140 0.00018254 0.00012983 3.96E-07 0.00016045 0.00012115 4.32E-05
서열번호 141 0.85239931 0.78224274 5.48E-08 0.85606061 0.78532749 9.13E-10
서열번호 142 0.15508329 0.12669039 5.94E-06 0.15310078 0.11932203 1.27E-06
서열번호 143 0.90582192 0.8245614 1.07E-08 0.90669371 0.84391081 2.69E-06
서열번호 144 0.01746725 0.00883002 1.54E-05 0.01495163 0.0077821 1.15E-06
서열번호 145 0.94989748 0.96148844 1.14E-11 0.94640006 0.9597437 3.83E-08
서열번호 146 0.08468312 0.07302075 6.89E-08 0.08874743 0.07260726 9.95E-07
서열번호 147 0.00556635 0.00395993 6.89E-10 0.00538181 0.00373748 2.04E-08
서열번호 148 0.0032219 0.00235948 1.06E-06 0.0034959 0.00232258 9.00E-06
서열번호 149 0.02113182 0.0146704 3.78E-07 0.02319849 0.01422394 1.44E-05
서열번호 150 0.0104712 0.00263158 4.49E-06 0.00712589 0 3.73E-05
서열번호 151 0.00013792 9.91E-05 1.57E-05 0.00015358 9.98E-05 8.18E-07
서열번호 152 0.31430901 0.40820734 1.42E-07 0.30192235 0.39311682 3.49E-07
서열번호 153 0.48933144 0.56835938 1.93E-10 0.48435814 0.5465995 1.98E-06
서열번호 154 0.00983359 0.00367309 3.02E-08 0.00848896 0.00466744 0.00036008
서열번호 155 0.01250085 0.00589491 2.52E-08 0.01422469 0.00643813 3.54E-06
서열번호 156 0.01501761 0.00269123 6.32E-10 0.01048249 0.00233003 0.00014007
서열번호 157 0.00539084 0.00120337 1.61E-06 0.00624025 0.00116279 1.19E-06
서열번호 158 0.10661269 0.07042254 2.76E-09 0.11753731 0.08276798 6.72E-07
서열번호 159 0.85753138 0.8999533 2.88E-10 0.87342162 0.8933043 2.19E-07
서열번호 160 0.1625 0.14206846 5.53E-07 0.16257769 0.14026885 2.24E-06
표 28에서 볼 수 있듯이, 메틸화 마커 영역의 평균 메틸화 수준 분포는 췌장암 환자와 췌장암이 없는 사람 사이에 유의미한 차이가 있어 좋은 선별 효과와 유의한 차이(P < 0.01)를 나타내어 췌장암에 대한 좋은 메틸화 마커이다.
3-2: 단일 메틸화 마커의 분화능
단일 메틸화 마커가 췌장암이 없는 것과 췌장암이 없는 것을 구별하는 능력을 검증하기 위해, 실시예 3-1의 훈련 세트 데이터에서 단일 마커의 메틸화 수준 데이터를 이용하여 모델을 훈련하였고, 테스트 세트 샘플을 이용하여 모델의 성능을 검증하였다.
Python(V3.9.7)의 sklearn(V1.0.1) 패키지에 있는 로지스틱 회귀 모델이 사용되었다: model=LogisticRegression(). 모델의 공식은 다음과 같다. 여기서 x는 샘플 대상 마커의 메틸화 수준 값이고, w는 다양한 마커의 계수, b는 절편 값, y는 모델 예측 점수이다.
훈련 세트의 샘플을 사용하여 훈련을 수행했다: model.fit(Traindata, TrainPheno), 여기서 TrainData는 훈련 세트 샘플의 대상 메틸화 부위의 데이터이고 TrainPheno는 훈련 세트 샘플의 특성이다(췌장암의 경우 1, 췌장암이 없는 경우 0). 모델의 관련 임계값은 훈련 세트의 샘플을 기반으로 결정되었다.
테스트는 테스트 세트의 샘플을 사용하여 수행되었다: TestPred = model.predict_proba(TestData)[:, 1],여기서 TestData는 테스트 세트 샘플의 대상 메틸화 사이트 데이터이고 TestPred는 모델 예측 점수이다. 상기 기준점을 바탕으로 한 예측 점수를 이용하여 샘플이 췌장암인지 여부를 판단하였다.
이 실시예에서 단일 메틸화 마커의 로지스틱 회귀 모델의 효과는 표 29에 나와 있다. 이 표에서 모든 메틸화 마커의 AUC 값은 테스트 세트와 훈련 세트 모두에서 0.55 이상에 도달할 수 있으며, 모두 췌장암의 좋은 마커임을 알 수 있다.
본 발명의 각 단일 메틸화 마커는 췌장암 마커로 사용될 수 있다. 로지스틱 회귀 모델링은 훈련 세트에 따라 임계값을 설정하는 데 사용된다. 점수가 임계값보다 크면 췌장암으로 예측하고, 그 반대이면 췌장암이 없을 것으로 예측한다. 훈련 세트와 테스트 세트는 매우 우수한 정확도, 특이성 및 민감도를 달성할 수 있으며 다른 기계 학습 모델도 유사한 결과를 얻을 수 있다.
단일 메틸화 마커에 대한 로지스틱 회귀 모델의 성능
서열번호 훈련 세트 AUC 테스트 세트 AUC 임계값임계값훈련 세트 정확도 훈련 세트 특이도 훈련 세트 민감도 테스트 세트 정확도 테스트 세트 특이도 테스트 세트 민감도
서열번호 126 0.885 0.907 0.522 0.833 0.873 0.797 0.875 0.915 0.829
서열번호 101 0.841 0.906 0.531 0.803 0.810 0.826 0.841 0.830 0.854
서열번호 67 0.899 0.889 0.524 0.841 0.952 0.754 0.784 0.872 0.683
서열번호 77 0.829 0.878 0.517 0.788 0.841 0.783 0.761 0.787 0.732
서열번호 94 0.763 0.862 0.514 0.727 0.841 0.623 0.773 0.915 0.610
서열번호 120 0.871 0.861 0.530 0.833 0.873 0.797 0.784 0.830 0.732
서열번호 141 0.775 0.856 0.531 0.765 0.825 0.710 0.773 0.809 0.732
서열번호 95 0.715 0.850 0.522 0.682 0.794 0.609 0.784 0.787 0.780
서열번호 108 0.831 0.848 0.519 0.795 0.841 0.754 0.727 0.681 0.780
서열번호 89 0.744 0.843 0.520 0.720 0.873 0.580 0.739 0.851 0.610
서열번호 92 0.756 0.841 0.519 0.735 0.667 0.797 0.705 0.574 0.854
서열번호 133 0.775 0.839 0.521 0.735 0.746 0.725 0.716 0.638 0.805
서열번호 80 0.801 0.836 0.522 0.758 0.651 0.870 0.727 0.574 0.902
서열번호 102 0.770 0.834 0.516 0.705 0.714 0.739 0.693 0.553 0.854
서열번호 113 0.804 0.832 0.511 0.712 0.746 0.739 0.739 0.660 0.829
서열번호 103 0.770 0.832 0.516 0.720 0.714 0.725 0.682 0.553 0.829
서열번호 147 0.812 0.830 0.522 0.758 0.889 0.667 0.739 0.745 0.732
서열번호 145 0.843 0.825 0.519 0.765 0.937 0.696 0.750 0.809 0.683
서열번호 82 0.794 0.825 0.513 0.773 0.857 0.710 0.705 0.702 0.707
서열번호 74 0.713 0.818 0.524 0.705 0.730 0.681 0.773 0.787 0.756
서열번호 109 0.788 0.814 0.511 0.750 0.698 0.797 0.739 0.702 0.780
서열번호 131 0.728 0.813 0.522 0.697 0.825 0.594 0.716 0.830 0.585
서열번호 135 0.727 0.813 0.517 0.682 0.857 0.522 0.750 0.894 0.585
서열번호 159 0.818 0.808 0.514 0.773 0.794 0.754 0.784 0.830 0.732
서열번호 88 0.800 0.807 0.520 0.758 0.794 0.725 0.705 0.681 0.732
서열번호 136 0.801 0.807 0.516 0.780 0.905 0.681 0.727 0.787 0.659
서열번호 73 0.777 0.805 0.515 0.727 0.778 0.681 0.716 0.702 0.732
서열번호 152 0.766 0.803 0.521 0.742 0.778 0.710 0.693 0.617 0.780
서열번호 122 0.769 0.803 0.511 0.750 0.651 0.841 0.693 0.574 0.829
서열번호 157 0.740 0.801 0.518 0.705 0.778 0.638 0.716 0.745 0.683
서열번호 118 0.744 0.797 0.512 0.720 0.762 0.696 0.727 0.745 0.707
서열번호 158 0.800 0.797 0.522 0.750 0.841 0.696 0.727 0.702 0.756
서열번호 153 0.822 0.795 0.512 0.727 0.778 0.725 0.682 0.574 0.805
서열번호 151 0.718 0.794 0.523 0.667 0.714 0.652 0.727 0.723 0.732
서열번호 123 0.744 0.794 0.510 0.720 0.698 0.739 0.693 0.574 0.829
서열번호 146 0.772 0.792 0.522 0.720 0.730 0.710 0.705 0.617 0.805
서열번호 144 0.718 0.791 0.515 0.697 0.746 0.652 0.716 0.787 0.634
서열번호 124 0.819 0.790 0.518 0.773 0.746 0.797 0.739 0.660 0.829
서열번호 142 0.729 0.790 0.521 0.727 0.667 0.783 0.727 0.681 0.780
서열번호 60 0.746 0.786 0.515 0.705 0.762 0.667 0.716 0.723 0.707
서열번호 87 0.744 0.786 0.514 0.697 0.571 0.826 0.670 0.511 0.854
서열번호 130 0.777 0.785 0.516 0.735 0.841 0.652 0.773 0.809 0.732
서열번호 160 0.753 0.784 0.519 0.705 0.683 0.768 0.727 0.702 0.756
서열번호 116 0.782 0.783 0.523 0.742 0.841 0.667 0.716 0.766 0.659
서열번호 70 0.737 0.782 0.513 0.712 0.714 0.725 0.716 0.723 0.707
서열번호 143 0.789 0.782 0.538 0.735 0.825 0.667 0.761 0.830 0.683
서열번호 65 0.761 0.782 0.522 0.720 0.857 0.609 0.727 0.830 0.610
서열번호 96 0.829 0.779 0.521 0.811 0.905 0.725 0.750 0.851 0.634
서열번호 61 0.739 0.779 0.523 0.667 0.524 0.855 0.693 0.468 0.951
서열번호 155 0.781 0.778 0.519 0.742 0.698 0.783 0.727 0.766 0.683
서열번호 137 0.809 0.777 0.508 0.750 0.794 0.710 0.670 0.660 0.683
서열번호 81 0.751 0.772 0.517 0.682 0.794 0.623 0.682 0.766 0.585
서열번호 68 0.782 0.770 0.517 0.750 0.746 0.768 0.648 0.617 0.683
서열번호 66 0.762 0.769 0.519 0.705 0.762 0.652 0.705 0.702 0.707
서열번호 148 0.746 0.768 0.522 0.659 0.698 0.652 0.682 0.638 0.732
서열번호 107 0.758 0.767 0.520 0.705 0.651 0.754 0.648 0.447 0.878
서열번호 98 0.748 0.766 0.520 0.705 0.810 0.609 0.727 0.809 0.634
서열번호 93 0.779 0.766 0.507 0.720 0.651 0.783 0.670 0.574 0.780
서열번호 138 0.742 0.766 0.522 0.674 0.683 0.696 0.636 0.532 0.756
서열번호 115 0.812 0.763 0.519 0.735 0.841 0.667 0.670 0.766 0.561
서열번호 149 0.757 0.762 0.516 0.705 0.762 0.681 0.670 0.660 0.683
서열번호 132 0.759 0.760 0.522 0.705 0.698 0.725 0.693 0.660 0.732
서열번호 100 0.791 0.760 0.514 0.689 0.730 0.739 0.670 0.596 0.756
서열번호 75 0.755 0.757 0.515 0.697 0.698 0.725 0.670 0.574 0.780
서열번호 105 0.751 0.757 0.516 0.712 0.762 0.681 0.750 0.702 0.805
서열번호 128 0.771 0.757 0.518 0.720 0.825 0.623 0.682 0.766 0.585
서열번호 110 0.769 0.756 0.523 0.735 0.794 0.681 0.693 0.681 0.707
서열번호 64 0.746 0.755 0.519 0.742 0.794 0.696 0.693 0.723 0.659
서열번호 83 0.789 0.754 0.518 0.742 0.762 0.739 0.659 0.660 0.659
서열번호 76 0.749 0.753 0.515 0.705 0.603 0.812 0.670 0.638 0.707
서열번호 139 0.750 0.752 0.525 0.705 0.746 0.696 0.693 0.787 0.585
서열번호 84 0.744 0.752 0.517 0.712 0.873 0.580 0.682 0.787 0.561
서열번호 134 0.787 0.752 0.516 0.765 0.825 0.725 0.716 0.681 0.756
서열번호 150 0.730 0.750 0.522 0.727 0.778 0.681 0.716 0.894 0.512
서열번호 63 0.764 0.749 0.520 0.705 0.587 0.812 0.693 0.574 0.829
서열번호 140 0.756 0.748 0.523 0.674 0.746 0.652 0.682 0.766 0.585
서열번호 114 0.769 0.748 0.518 0.697 0.698 0.725 0.648 0.489 0.829
서열번호 112 0.758 0.747 0.522 0.705 0.825 0.623 0.705 0.766 0.634
서열번호 106 0.753 0.745 0.521 0.720 0.857 0.594 0.716 0.809 0.610
서열번호 62 0.790 0.744 0.521 0.742 0.714 0.768 0.648 0.553 0.756
서열번호 78 0.788 0.744 0.518 0.720 0.746 0.696 0.659 0.681 0.634
서열번호 121 0.763 0.740 0.511 0.727 0.762 0.696 0.705 0.723 0.683
서열번호 127 0.759 0.739 0.504 0.689 0.619 0.783 0.614 0.362 0.902
서열번호 86 0.754 0.739 0.520 0.682 0.714 0.681 0.670 0.596 0.756
서열번호 71 0.763 0.738 0.519 0.689 0.730 0.681 0.682 0.681 0.683
서열번호 72 0.751 0.738 0.522 0.720 0.857 0.594 0.670 0.787 0.537
서열번호 104 0.758 0.735 0.519 0.697 0.762 0.652 0.716 0.787 0.634
서열번호 156 0.812 0.732 0.513 0.780 0.714 0.855 0.648 0.574 0.732
서열번호 99 0.784 0.732 0.521 0.712 0.571 0.841 0.614 0.511 0.732
서열번호 69 0.755 0.731 0.511 0.727 0.778 0.696 0.739 0.809 0.659
서열번호 111 0.807 0.730 0.531 0.765 0.714 0.812 0.670 0.638 0.707
서열번호 97 0.789 0.727 0.521 0.727 0.778 0.696 0.648 0.702 0.585
서열번호 117 0.781 0.727 0.519 0.765 0.778 0.754 0.636 0.638 0.634
서열번호 154 0.780 0.722 0.521 0.697 0.873 0.565 0.670 0.851 0.463
서열번호 129 0.778 0.721 0.522 0.705 0.762 0.681 0.670 0.596 0.756
서열번호 119 0.782 0.715 0.521 0.697 0.714 0.725 0.648 0.596 0.707
서열번호 90 0.783 0.713 0.516 0.742 0.794 0.696 0.614 0.617 0.610
서열번호 79 0.801 0.701 0.521 0.795 0.905 0.696 0.636 0.702 0.561
서열번호 91 0.784 0.690 0.519 0.750 0.714 0.812 0.591 0.553 0.634
서열번호 125 0.792 0.675 0.522 0.735 0.857 0.623 0.614 0.681 0.537
서열번호 85 0.801 0.663 0.522 0.727 0.683 0.797 0.614 0.553 0.683
3-3: 모든 타겟 메틸화 마커에 대한 머신러닝 모델
이 예에서는 모든 101개 메틸화 마커의 메틸화 수준을 사용하여 데이터에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 정확하게 구별할 수 있는 로지스틱 회귀 머신 학습 모델 MODEL1을 구성한다. 구체적인 단계는 101개 표적 메틸화 마커(서열번호: 60-160)를 모두 조합한 데이터 입력 모델을 사용한 점을 제외하면, 기본적으로 실시예 3-2와 동일하다.
훈련 세트와 테스트 세트의 모델 예측 점수 분포는 도 25에 표시된다. ROC 곡선은 도 26에 표시된다. 훈련 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별하기 위한 AUC는 0.982에 도달했다. 테스트 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별하기 위한 AUC는 0.975에 도달했다. 임계값은 0.600으로 설정되었으며, 점수가 이 값보다 크면 췌장암으로 예측하고, 그렇지 않으면 췌장암이 없는 것으로 예측한다.
이 임계값에서 훈련 세트 정확도는 0.939, 훈련 세트 특이성은 0.984, 훈련 세트 민감도는 0.899, 테스트 세트 정확도는 0.886, 테스트 세트 특이성은 0.915, 테스트 세트 민감도는 0.854이고, 모델은 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별할 수 있다.
3-4: 메틸화 마커 조합 1의 머신러닝 모델
본 실시예에서는 해당 마커 조합의 효과를 검증하기 위해 메틸화 수준을 기준으로 전체 101개의 메틸화 마커 중에서 서열번호 113, 서열번호 124, 서열번호 67, 서열번호 77, 서열번호 80, 서열번호 96을 포함하는 총 6개의 메틸화 마커를 선택하여 로지스틱 회귀 머신러닝 모델을 구축하였다.
머신러닝 모델을 구성하는 방법 역시 실시예 3-2와 일치하지만, 해당 샘플은 해당 예제에서 위 6개 마커의 데이터만을 사용하고 있다. 훈련 세트와 테스트 세트의 모델 점수는 도 27에 표시된다. 모델의 ROC 곡선은 도 28에 표시된다. 이 모델의 훈련 세트와 테스트 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플의 점수가 다른 암 종의 점수와 크게 다른 것을 볼 수 있다. 이 모델의 훈련 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별하기 위한 AUC는 0.925에 도달했다. 테스트 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별하기 위한 AUC는 0.953에 도달했다. 임계값은 0.511로 설정되었으며, 점수가 이 값보다 크면 췌장암으로 예측하고, 그렇지 않으면 췌장암이 없는 것으로 예측한다. 이 임계값에서 훈련 세트 정확도는 0.886, 훈련 세트 특이도은 0.921, 훈련 세트 민감도는 0.855이고; 테스트 세트 정확도는 0.886, 테스트 세트 특이도는 0.915, 테스트 세트 민감도는 0.854로, 이는 이 조합 모델의 성능이 우수함을 나타낸다.
3-5: 메틸화 마커 조합 2의 머신러닝 모델
본 실시예에서는 해당 마커 조합의 효과를 검증하기 위해 메틸화 수준을 기준으로 전체 101개의 메틸화 마커 중에서 서열번호 108, 서열번호 123, 서열번호 136, 서열번호 141, 서열번호 153, 서열번호 159, 서열번호 82을 포함하는 총 7개의 메틸화 마커를 선택하여 로지스틱 회귀 머신러닝 모델을 구축하였다.
머신러닝 모델을 구성하는 방법 역시 실시예 3-2와 일치하지만, 해당 샘플은 해당 예제에서 위 7개 마커의 데이터만을 사용하고 있다. 훈련 세트와 테스트 세트의 모델 점수는 도 29에 표시된다. 모델의 ROC 곡선은 도 30에 표시된다. 이 모델의 훈련 세트와 테스트 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플의 점수가 다른 암 종의 점수와 크게 다른 것을 볼 수 있다. 이 모델의 훈련 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별하기 위한 AUC는 0.919에 도달했다. 테스트 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별하기 위한 AUC는 0.938에 도달했다. 임계값은 0.581로 설정되었으며, 점수가 이 값보다 크면 췌장암으로 예측하고, 그렇지 않으면 췌장암이 없는 것으로 예측한다. 이 임계값에서 훈련 세트 정확도는 0.826, 훈련 세트 특이도은 0.921, 훈련 세트 민감도는 0.754이고; 테스트 세트 정확도는 0.818, 테스트 세트 특이도는 0.830, 테스트 세트 민감도는 0.805로, 이는 이 조합 모델의 성능이 우수함을 나타낸다.
3-6: 메틸화 마커 조합 3의 머신러닝 모델
본 실시예에서는 해당 마커 조합의 효과를 검증하기 위해 메틸화 수준을 기준으로 전체 101개의 메틸화 마커 중에서 서열번호: 115, 서열번호: 109, 서열번호: 120, 서열번호: 137, 서열번호: 145, 서열번호: 147, 서열번호: 158, 서열번호: 88, 서열번호 94, 서열번호 101을 포함하는 총 10개의 메틸화 마커를 선택하여 로지스틱 회귀 머신러닝 모델을 구축하였다.
머신러닝 모델을 구성하는 방법 역시 실시예 3-2와 일치하지만, 해당 샘플은 해당 예제에서 위 7개 마커의 데이터만을 사용하고 있다. 훈련 세트와 테스트 세트의 모델 점수는 도 31에 표시된다. 모델의 ROC 곡선은 도 32에 표시된다. 이 모델의 훈련 세트와 테스트 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플의 점수가 다른 암 종의 점수와 크게 다른 것을 볼 수 있다. 이 모델의 훈련 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별하기 위한 AUC는 0.919에 도달했다. 테스트 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별하기 위한 AUC는 0.950에 도달했다. 임계값은 0.587로 설정되었으며, 점수가 이 값보다 크면 췌장암으로 예측하고, 그렇지 않으면 췌장암이 없는 것으로 예측한다. 이 임계값에서 훈련 세트 정확도는 0.848, 훈련 세트 특이도은 0.952, 훈련 세트 민감도는 0.812이고; 테스트 세트 정확도는 0.886, 테스트 세트 특이도는 0.915, 테스트 세트 민감도는 0.854로, 이는 이 조합 모델의 성능이 우수함을 나타낸다.
3-7: 모든 표적 메틸화 마커 MODEL1 모델과 다른 특허 예측 모델의 융합 모델의 예측 효과
이전 특허(특허번호: CN2021106792818)에서는 56개의 메틸화 마커를 제공했다. 이전 특허의 56개 메틸화 마커를 사용하여 로지스틱 회귀 모델 MODEL2를 구축했고, 실시예 3-3의 모델 MODEL1과 기계학습 모델링을 위한 MODEL2(예측값은 표 30 참조)의 예측값을 이용하여 융합모델 DUALMODEL을 구축하였다.
샘플 번호 나이 성별 샘플 타입 그룹 MODEL1 MODEL2
샘플 1 68 남성 췌장암 없음 훈련 세트 0.25078081 0.65174889
샘플 2 43 남성 췌장암 훈련 세트 0.84424996 0.73201041
샘플 3 58 여성 췌장암 훈련 세트 0.99186158 0.91326099
샘플 4 70 남성 췌장암 없음 훈련 세트 0.08510601 0.4047784
샘플 5 68 남성 췌장암 없음 훈련 세트 0.40610013 0.25761509
샘플 6 63 남성 췌장암 없음 훈련 세트 0.01067555 0.13177619
샘플 7 53 여성 췌장암 훈련 세트 0.99469338 0.39029108
샘플 8 73 여성 췌장암 훈련 세트 0.9040018 0.56356383
샘플 9 78 여성 췌장암 없음 훈련 세트 0.15905093 0.05194212
샘플 10 52 여성 췌장암 훈련 세트 0.99217081 0.4976904
샘플 11 65 여성 췌장암 훈련 세트 0.99950316 0.95377297
샘플 12 64 여성 췌장암 없음 훈련 세트 0.03258942 0.05961452
샘플 13 70 여성 췌장암 없음 훈련 세트 0.2179057 0.15433055
샘플 14 75 여성 췌장암 훈련 세트 0.9875618 0.61078338
샘플 15 52 남성 췌장암 훈련 세트 0.05775145 0.25424531
샘플 16 55 남성 췌장암 없음 훈련 세트 0.00966501 0.18725982
샘플 17 67 남성 췌장암 훈련 세트 0.9975897 0.94281288
샘플 18 68 남성 췌장암 훈련 세트 0.98029326 0.29507811
샘플 19 50 남성 췌장암 훈련 세트 0.99478232 0.73780851
샘플 20 61 여성 췌장암 없음 훈련 세트 0.02333566 0.11459015
샘플 21 61 여성 췌장암 없음 훈련 세트 0.04236396 0.26461884
샘플 22 75 여성 췌장암 없음 훈련 세트 0.12382218 0.31538719
샘플 23 68 남성 췌장암 훈련 세트 1 0.99999982
샘플 24 68 여성 췌장암 훈련 세트 0.99901289 0.96324118
샘플 25 63 남성 췌장암 훈련 세트 0.99090999 0.95328414
샘플 26 46 남성 췌장암 훈련 세트 0.99904043 0.99826612
샘플 27 61 남성 췌장암 훈련 세트 0.99999651 0.98861223
샘플 28 81 남성 췌장암 훈련 세트 0.9931298 0.7917371
샘플 29 51 여성 췌장암 없음 훈련 세트 0.05085159 0.27894715
샘플 30 71 남성 췌장암 없음 훈련 세트 0.22087186 0.21463958
샘플 31 66 여성 췌장암 없음 훈련 세트 0.05196845 0.26969563
샘플 32 74 남성 췌장암 없음 훈련 세트 0.0222437 0.28885596
샘플 33 61 여성 췌장암 훈련 세트 0.95430773 0.50709414
샘플 34 64 남성 췌장암 없음 훈련 세트 0.19472334 0.08202203
샘플 35 60 남성 췌장암 훈련 세트 0.78608474 0.80666115
샘플 36 59 남성 췌장암 없음 훈련 세트 0.17703564 0.28204181
샘플 37 59 남성 췌장암 훈련 세트 0.90702933 0.54538408
샘플 38 58 남성 췌장암 없음 훈련 세트 0.12213927 0.22721625
샘플 39 70 여성 췌장암 없음 훈련 세트 0.02897606 0.15557722
샘플 40 63 남성 췌장암 훈련 세트 0.97500758 0.5401742
샘플 41 65 남성 췌장암 훈련 세트 0.96889354 0.38259646
샘플 42 65 남성 췌장암 훈련 세트 0.72260556 0.41643945
샘플 43 68 남성 췌장암 없음 훈련 세트 0.39268897 0.49625219
샘플 44 73 남성 췌장암 없음 훈련 세트 0.30300244 0.14519084
샘플 45 33 남성 췌장암 없음 훈련 세트 0.11876943 0.51680364
샘플 46 72 남성 췌장암 훈련 세트 0.99998994 0.99205528
샘플 47 61 남성 췌장암 없음 훈련 세트 0.02970681 0.14617613
샘플 48 65 남성 췌장암 없음 훈련 세트 0.65896252 0.47554232
샘플 49 62 남성 췌장암 없음 훈련 세트 0.08777733 0.28046503
샘플 50 59 남성 췌장암 없음 훈련 세트 0.25340248 0.35851029
샘플 51 58 여성 췌장암 훈련 세트 0.6152768 0.55662049
샘플 52 52 여성 췌장암 없음 훈련 세트 0.1617307 0.30088731
샘플 53 63 여성 췌장암 없음 훈련 세트 0.16210091 0.12832645
샘플 54 66 여성 췌장암 훈련 세트 0.84346289 0.79803863
샘플 55 48 남성 췌장암 없음 훈련 세트 0.14509109 0.48815487
샘플 56 52 남성 췌장암 훈련 세트 0.31792133 0.69977184
샘플 57 63 여성 췌장암 훈련 세트 0.99971764 0.99709014
샘플 58 66 여성 췌장암 훈련 세트 0.999994 0.99962091
샘플 59 65 여성 췌장암 없음 훈련 세트 0.02202481 0.26699534
샘플 60 64 남성 췌장암 훈련 세트 0.90270247 0.61235916
샘플 61 48 남성 췌장암 훈련 세트 0.99978206 0.98503998
샘플 62 51 여성 췌장암 없음 훈련 세트 0.24623557 0.41186833
샘플 63 60 남성 췌장암 없음 훈련 세트 0.08294895 0.44268466
샘플 64 56 남성 췌장암 없음 훈련 세트 0.47217743 0.21183073
샘플 65 64 여성 췌장암 훈련 세트 0.77824052 0.59294107
샘플 66 57 여성 췌장암 훈련 세트 0.9974722 0.31385624
샘플 67 54 남성 췌장암 없음 훈련 세트 0.11018546 0.20134804
샘플 68 58 남성 췌장암 없음 훈련 세트 0.16540707 0.15323002
샘플 69 50 남성 췌장암 없음 훈련 세트 0.25309582 0.49754535
샘플 70 67 남성 췌장암 훈련 세트 0.99677626 0.93696315
샘플 71 69 여성 췌장암 없음 훈련 세트 0.16044136 0.41599393
샘플 72 65 남성 췌장암 훈련 세트 0.970308 0.469277
샘플 73 71 남성 췌장암 훈련 세트 0.9157059 0.87305787
샘플 74 51 남성 췌장암 훈련 세트 0.9901979 0.79482221
샘플 75 63 여성 췌장암 훈련 세트 0.89611651 0.42558101
샘플 76 50 남성 췌장암 훈련 세트 0.70383723 0.51413489
샘플 77 71 여성 췌장암 훈련 세트 0.94689731 0.74299827
샘플 78 68 남성 췌장암 훈련 세트 0.8611596 0.25025656
샘플 79 73 여성 췌장암 없음 훈련 세트 0.05873808 0.22573393
샘플 80 70 남성 췌장암 훈련 세트 0.99992248 0.98803577
샘플 81 59 남성 췌장암 훈련 세트 0.99775767 0.82747569
샘플 82 61 남성 췌장암 훈련 세트 0.77743794 0.21115148
샘플 83 67 여성 췌장암 훈련 세트 0.99088643 0.61083689
샘플 84 64 여성 췌장암 없음 훈련 세트 0.21002627 0.93001938
샘플 85 68 여성 췌장암 없음 훈련 세트 0.03174236 0.12057433
샘플 86 51 여성 췌장암 훈련 세트 0.84403816 0.79429991
샘플 87 74 남성 췌장암 훈련 세트 0.33938673 0.62639247
샘플 88 61 남성 췌장암 없음 훈련 세트 0.13244477 0.15772577
샘플 89 65 남성 췌장암 없음 훈련 세트 0.03756757 0.35296481
샘플 90 73 남성 췌장암 없음 훈련 세트 0.34746229 0.75329063
샘플 91 83 여성 췌장암 훈련 세트 1 1
샘플 92 89 남성 췌장암 훈련 세트 0.98309756 0.66871618
샘플 93 72 남성 췌장암 없음 훈련 세트 0.27763773 0.55045875
샘플 94 72 남성 췌장암 훈련 세트 0.98121663 0.89955382
샘플 95 51 여성 췌장암 훈련 세트 0.22552444 0.30532686
샘플 96 73 여성 췌장암 없음 훈련 세트 0.06250196 0.0931513
샘플 97 62 남성 췌장암 훈련 세트 0.97247552 0.87634912
샘플 98 66 여성 췌장암 없음 훈련 세트 0.06054158 0.09410333
샘플 99 64 여성 췌장암 훈련 세트 0.96160963 0.59392248
샘플 100 53 여성 췌장암 없음 훈련 세트 0.11575779 0.08220186
샘플 101 58 남성 췌장암 훈련 세트 0.93663717 0.51236157
샘플 102 52 여성 췌장암 없음 훈련 세트 0.04815375 0.24040156
샘플 103 68 남성 췌장암 없음 훈련 세트 0.03270634 0.13033442
샘플 104 66 여성 췌장암 없음 훈련 세트 0.07978489 0.12384378
샘플 105 73 남성 췌장암 훈련 세트 1 1
샘플 106 35 남성 췌장암 없음 훈련 세트 0.02154563 0.25398164
샘플 107 52 여성 췌장암 훈련 세트 0.80951398 0.27261042
샘플 108 47 여성 췌장암 훈련 세트 0.2869437 0.52668503
샘플 109 50 남성 췌장암 없음 훈련 세트 0.08096794 0.33442612
샘플 110 58 여성 췌장암 없음 훈련 세트 0.02672282 0.22775222
샘플 111 61 여성 췌장암 없음 훈련 세트 0.02695807 0.17228597
샘플 112 73 남성 췌장암 없음 훈련 세트 0.14341528 0.05630292
샘플 113 33 남성 췌장암 훈련 세트 0.99998424 0.99707821
샘플 114 75 여성 췌장암 훈련 세트 0.96847927 0.34677269
샘플 115 74 남성 췌장암 훈련 세트 0.79780879 0.95525211
샘플 116 72 남성 췌장암 없음 훈련 세트 0.11698831 0.29231555
샘플 117 73 여성 췌장암 없음 훈련 세트 0.09109822 0.21886477
샘플 118 64 남성 췌장암 훈련 세트 0.45009795 0.53501892
샘플 119 66 남성 췌장암 없음 훈련 세트 0.01887551 0.69044149
샘플 120 66 여성 췌장암 훈련 세트 0.36695883 0.38070724
샘플 121 68 남성 췌장암 훈련 세트 0.93044563 0.48217866
샘플 122 60 남성 췌장암 훈련 세트 0.98054899 0.25490747
샘플 123 66 여성 췌장암 훈련 세트 0.99434139 0.66854088
샘플 124 66 남성 췌장암 훈련 세트 0.99787307 0.94969532
샘플 125 52 남성 췌장암 없음 훈련 세트 0.32914335 0.41890651
샘플 126 61 여성 췌장암 없음 훈련 세트 0.04003975 0.1934595
샘플 127 65 남성 췌장암 훈련 세트 0.99999807 0.99998367
샘플 128 35 남성 췌장암 훈련 세트 0.91754656 0.79652187
샘플 129 63 남성 췌장암 없음 훈련 세트 0.06558267 0.08374058
샘플 130 68 남성 췌장암 훈련 세트 0.98035146 0.7368831
샘플 131 74 남성 췌장암 없음 훈련 세트 0.2004795 0.11865175
샘플 132 78 남성 췌장암 없음 훈련 세트 0.04033666 0.39760437
샘플 133 67 남성 췌장암 없음 테스트 세트 0.31006169 0.38800437
샘플 134 65 여성 췌장암 테스트 세트 0.99827511 0.9801674
샘플 135 67 여성 췌장암 없음 테스트 세트 0.03456807 0.22284357
샘플 136 65 남성 췌장암 없음 테스트 세트 0.51361932 0.47667898
샘플 137 73 남성 췌장암 테스트 세트 0.99984506 0.97732774
샘플 138 68 여성 췌장암 없음 테스트 세트 0.27818339 0.12354882
샘플 139 49 여성 췌장암 테스트 세트 0.9765407 0.53402888
샘플 140 46 여성 췌장암 없음 테스트 세트 0.15208174 0.41915306
샘플 141 61 여성 췌장암 테스트 세트 0.99488045 0.79092403
샘플 142 53 여성 췌장암 테스트 세트 0.96244763 0.84178423
샘플 143 79 남성 췌장암 테스트 세트 0.8251573 0.39626533
샘플 144 60 남성 췌장암 테스트 세트 0.96957092 0.95724885
샘플 145 52 남성 췌장암 없음 테스트 세트 0.72047003 0.26187496
샘플 146 61 여성 췌장암 테스트 세트 0.95294665 0.27935479
샘플 147 56 여성 췌장암 테스트 세트 0.99463814 0.8473568
샘플 148 68 남성 췌장암 없음 테스트 세트 0.05066732 0.43004378
샘플 149 53 남성 췌장암 없음 테스트 세트 0.37611776 0.16021398
샘플 150 69 여성 췌장암 테스트 세트 0.98877813 0.80583597
샘플 151 65 남성 췌장암 없음 테스트 세트 0.41874318 0.46822312
샘플 152 71 남성 췌장암 없음 테스트 세트 0.38347822 0.17284585
샘플 153 64 여성 췌장암 없음 테스트 세트 0.34273249 0.53256037
샘플 154 79 남성 췌장암 없음 테스트 세트 0.18189337 0.43406318
샘플 155 56 남성 췌장암 테스트 세트 0.99358521 0.66992317
샘플 156 67 남성 췌장암 테스트 세트 0.97611604 0.9817731
샘플 157 67 남성 췌장암 테스트 세트 0.96612475 0.71360917
샘플 158 70 남성 췌장암 테스트 세트 0.98346993 0.97165392
샘플 159 57 여성 췌장암 없음 테스트 세트 0.04987171 0.14632569
샘플 160 66 여성 췌장암 없음 테스트 세트 0.04087084 0.22151849
샘플 161 51 여성 췌장암 테스트 세트 0.95558569 0.56875071
샘플 162 66 여성 췌장암 테스트 세트 0.97370032 0.89306411
샘플 163 56 여성 췌장암 없음 테스트 세트 0.94431241 0.88579486
샘플 164 59 남성 췌장암 없음 테스트 세트 0.17790901 0.2341512
샘플 165 65 남성 췌장암 없음 테스트 세트 0.04062224 0.20341276
샘플 166 72 남성 췌장암 없음 테스트 세트 0.03634964 0.19893791
샘플 167 71 여성 췌장암 없음 테스트 세트 0.23909528 0.36457442
샘플 168 72 남성 췌장암 테스트 세트 0.9895846 0.83498032
샘플 169 64 남성 췌장암 없음 테스트 세트 0.13914154 0.37080528
샘플 170 66 남성 췌장암 테스트 세트 0.98637893 0.92709594
샘플 171 73 남성 췌장암 테스트 세트 0.99766784 0.81383981
샘플 172 53 여성 췌장암 없음 테스트 세트 0.25548561 0.15473561
샘플 173 73 여성 췌장암 없음 테스트 세트 0.02235891 0.17164734
샘플 174 65 여성 췌장암 없음 테스트 세트 0.06854341 0.27990224
샘플 175 72 남성 췌장암 테스트 세트 0.89914897 0.79582034
샘플 176 68 남성 췌장암 없음 테스트 세트 0.07707142 0.07000933
샘플 177 68 남성 췌장암 테스트 세트 0.45466364 0.61302045
샘플 178 59 남성 췌장암 테스트 세트 0.31471306 0.6957838
샘플 179 73 남성 췌장암 테스트 세트 0.99962696 0.99995631
샘플 180 58 남성 췌장암 테스트 세트 0.99453021 0.61075525
샘플 181 66 남성 췌장암 없음 테스트 세트 0.39550559 0.33270704
샘플 182 55 남성 췌장암 테스트 세트 0.99819702 0.77738821
샘플 183 60 남성 췌장암 없음 테스트 세트 0.07917567 0.14715185
샘플 184 80 남성 췌장암 테스트 세트 0.94788208 0.47871498
샘플 185 51 남성 췌장암 없음 테스트 세트 0.03590508 0.15065318
샘플 186 73 여성 췌장암 테스트 세트 0.99095215 0.72755814
샘플 187 48 남성 췌장암 테스트 세트 0.47268095 0.84275025
샘플 188 67 남성 췌장암 없음 테스트 세트 0.43555874 0.67384984
샘플 189 79 남성 췌장암 없음 테스트 세트 0.23924567 0.11499981
샘플 190 58 여성 췌장암 없음 테스트 세트 0.14410461 0.16051746
샘플 191 68 여성 췌장암 테스트 세트 0.99705838 0.77234306
샘플 192 64 여성 췌장암 테스트 세트 0.44505534 0.48062547
샘플 193 78 남성 췌장암 없음 테스트 세트 0.11731827 0.25874073
샘플 194 64 여성 췌장암 테스트 세트 0.99383071 0.46219981
샘플 195 48 남성 췌장암 없음 테스트 세트 0.06891145 0.29703642
샘플 196 70 여성 췌장암 테스트 세트 0.3089189 0.25476156
샘플 197 73 남성 췌장암 없음 테스트 세트 0.72066945 0.19892712
샘플 198 70 남성 췌장암 없음 테스트 세트 0.10262287 0.56600748
샘플 199 66 여성 췌장암 없음 테스트 세트 0.12578817 0.47884671
샘플 200 54 남성 췌장암 테스트 세트 0.96953552 0.97468304
샘플 201 73 여성 췌장암 테스트 세트 0.97365073 0.88836746
샘플 202 61 여성 췌장암 테스트 세트 0.46276108 0.55159466
샘플 203 72 남성 췌장암 없음 테스트 세트 0.04585753 0.62547952
샘플 204 67 남성 췌장암 없음 테스트 세트 0.10670945 0.29937626
샘플 205 60 남성 췌장암 없음 테스트 세트 0.03488765 0.16531538
샘플 206 65 남성 췌장암 테스트 세트 0.84428404 0.6670755
샘플 207 53 남성 췌장암 테스트 세트 0.72297536 0.66199598
샘플 208 64 여성 췌장암 없음 테스트 세트 0.15668154 0.19992112
샘플 209 46 남성 췌장암 없음 테스트 세트 0.04448948 0.38817245
샘플 210 71 남성 췌장암 테스트 세트 0.97631324 0.85352832
샘플 211 81 남성 췌장암 테스트 세트 0.99954334 0.99593925
샘플 212 63 여성 췌장암 없음 테스트 세트 0.1857722 0.1456431
샘플 213 51 여성 췌장암 없음 테스트 세트 0.60012368 0.79114585
샘플 214 75 여성 췌장암 없음 테스트 세트 0.14224736 0.53172159
샘플 215 43 남성 췌장암 없음 테스트 세트 0.08123859 0.32490929
샘플 216 78 남성 췌장암 없음 테스트 세트 0.4018081 0.31747332
샘플 217 70 여성 췌장암 테스트 세트 0.98494418 0.6742575
샘플 218 73 여성 췌장암 테스트 세트 0.95639912 0.6712826
샘플 219 49 여성 췌장암 없음 테스트 세트 0.08526009 0.11701414
샘플 220 67 남성 췌장암 없음 테스트 세트 0.18782098 0.29893006
DUALMODEL 모델의 구성은 실시예 3-2와 유사하지만 해당 샘플에는 MODEL1 예측값과 MODEL2 예측값을 사용하였다. 훈련 세트와 테스트 세트에서 DUALMODEL의 모델 점수는 도 33에 나타나 있으며, 모델의 ROC 곡선은 도 34에 나와 있다. 이 모델의 훈련 세트와 테스트 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플의 점수가 다른 암 종의 점수와 크게 다른 것을 볼 수 있다. 이 모델의 훈련 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별하기 위한 AUC는 0.983에 도달했다. 테스트 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별하기 위한 AUC는 0.971에 도달했다. 임계값은 0.418로 설정되었으며, 점수가 이 값보다 크면 췌장암으로 예측하고, 그렇지 않으면 췌장암이 없는 것으로 예측한다. 이 임계값에서 훈련 세트 정확도는 0.939, 훈련 세트 특이도은 0.984, 훈련 세트 민감도는 0.913; 테스트 세트 정확도는 0.909, 테스트 세트 특이도는 0.872, 테스트 세트 민감도는 0.951이며, 이는 본 특허의 메틸화 마커 조합과 다른 특허의 메틸화 마커 조합으로 구성된 집합 모델이 좋은 성능을 가짐을 나타낸다.
3-8: 모든 타겟 메틸화 마커와 다른 특허받은 메틸화 마커를 결합한 ALLMODEL 예측 모델의 예측 효과
이전 특허출원(특허번호:CN2021106792818)에서는 56개의 메틸화 마커를 제공하였고, 본 출원의 101개 메틸화 마커와 이전 특허의 56개 메틸화 마커를 함께 사용하여 로지스틱 회귀 모델 ALLMODEL을 구축하였다. ALLMODEL 모델의 구성은 실시예 3-2와 유사하나, 해당 샘플에는 본 특허의 101개 메틸화 마커와 이전 특허의 56개 메틸화 마커를 포함하여 총 157개의 메틸화 마커를 사용하였다. 훈련 세트와 테스트 세트의 ALLMODEL의 모델 점수는 도 35에 나타나 있으며, 모델의 ROC 곡선은 도 36에 나와 있다. 이 모델의 훈련테스트 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플의 점수가 다른 암 종의 점수와 크게 다른 것을 볼 수 있다. 이 모델의 훈련 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별하기 위한 AUC는 0.982에 도달했다. 테스트 세트에서 췌장암이 있는 샘플과 췌장암이 없는 샘플을 구별하기 위한 AUC는 0.975에 도달했다. 임계값은 0.599로 설정되었으며, 점수가 이 값보다 크면 췌장암으로 예측하고, 그렇지 않으면 췌장암이 없는 것으로 예측한다. 이 임계값에서 훈련 세트 정확도는 0.939, 훈련 세트 특이도은 0.984, 훈련 세트 민감도는 0.899이고; 테스트 세트 정확도는 0.886, 테스트 세트 특이도는 0.915, 테스트 세트 민감도는 0.854로, 이는 본 특허의 메틸화 마커와 다른 특허 마커의 조합을 사용하여 구축된 모델의 성능이 우수함을 나타낸다.
실시예 4
4-1: 표적화된 메틸화 서열분석을 통한 특징적인 메틸화 위치 스크리닝
발명자는 췌장암 환자 94명, 만성 췌장염 환자 25명으로부터 혈액 샘플을 수집했으며, 모든 환자는 사전 동의서에 서명했다. 췌장암 환자는 이전에 췌장염 진단을 받은 적이 있었다. 샘플 정보는 아래 표를 참조.
혈장 DNA의 메틸화 서열 분석 데이터는 MethylTitan 분석을 통해 얻어서 DNA 메틸화 분류 마커를 확인하였다. 그 과정은 도 37을 참조하며, 구체적인 과정은 다음과 같다:
1. 혈장 cfDNA 샘플 추출
Streck 혈액 수집 튜브를 사용하여 환자로부터 2 ml 전혈 샘플을 수집하고 적시에(3일 이내) 원심분리하여 혈장을 분리한 후 실험실로 운반한 후 지침에 따라 QIAGEN QIAamp 순환 핵산 키트를 사용하여 cfDNA를 추출했다.
2. 시퀀싱 및 데이터 전처리
1) 라이브러리는 Illumina Nextseq 500 시퀀서를 사용하여 페어드 엔드 시퀀싱되었다.
2) Pear(v0.6.0) 소프트웨어는 Illumina Hiseq X10/Nextseq 500/Nova seq 시퀀서의 동일한 페어드 엔드 150bp 시퀀싱 단편의 페어드 엔드 시퀀싱 데이터를 하나의 시퀀스로 결합했으며, 가장 짧은 중첩 길이는 20bp이고 결합 후 가장 짧은 길이는 30bp이다.
3) Trim_galore v 0.6.0 및 cutadapt v1.8.1 소프트웨어를 사용하여 결합된 시퀀싱 데이터에서 어댑터 제거를 수행했다. 어댑터 서열 "AGATCGGAAGAGCAC"은 서열의 5' 말단에서 제거되었으며, 양쪽 말단에서 서열분석 품질 값이 20보다 낮은 염기가 제거되었다.
3. 시퀀싱 데이터 정렬
여기에 사용된 참조 게놈 데이터는 UCSC 데이터베이스에서 가져온 것이다(UCSC: HG19, hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz).
1) 먼저 Bismark 소프트웨어를 이용하여 HG19를 시토신에서 티민(CT), 아데닌에서 구아닌(GA)으로 변환시키고, Bowtie2 소프트웨어를 이용하여 변환된 게놈에 대한 인덱스를 구축하였다.
2) 전처리된 데이터 역시 CT와 GA로 변환되었다.
3) 변환된 서열을 Bowtie2 소프트웨어를 사용하여 변환된 HG19 참조 게놈에 정렬했다. 최소 시드 시퀀스 길이는 20이었고 시드 시퀀스에는 불일치가 허용되지 않았다.
4. MHF 계산
각 타겟 영역 HG19의 CpG 사이트에 대해 위의 정렬 결과를 바탕으로 각 사이트에 해당하는 메틸화 수준을 구했다. 본 명세서의 부위의 뉴클레오티드 번호 매기기는 HG19의 뉴클레오티드 위치 번호 매기기에 해당한다. 하나의 표적 메틸화 영역은 여러 개의 메틸화 일배체형을 가질 수 있다. 이 값은 표적 지역의 각 메틸화된 일배체형에 대해 계산되어야 한다. MHF 계산식의 예는 다음과 같다.
여기서 i는 표적 메틸화 영역을 나타내고, h는 표적 메틸화 일배체형을 나타내고, Ni는 표적 메틸화 영역에 위치한 판독 수를 나타내고, Ni, h는 표적 메틸화 일배체형을 포함하는 판독 수를 나타낸다.
5. 메틸화 데이터 매트릭스
1) 훈련 세트와 테스트 세트의 각 샘플의 메틸화 시퀀싱 데이터를 데이터 매트릭스로 결합하고, 깊이가 200 미만인 각 사이트를 결측값으로 취했다.
2) 결측값 비율이 10%를 넘는 사이트는 삭제되었다.
3) 데이터 행렬의 누락된 값에 대해서는 KNN 알고리즘을 사용하여 누락된 데이터를 보간(interpolate)했다.
6. 훈련 세트 샘플 그룹을 기반으로 특징 메틸화 세그먼트 발견
1) 표현형과 관련하여 각 메틸화 세그먼트에 대해 로지스틱 회귀 모델을 구축하고 각 증폭된 표적 영역에 대해 가장 유의한 회귀 계수를 갖는 메틸화 세그먼트를 선별하여 후보 메틸화 세그먼트를 형성했다.
2) 훈련 세트는 10겹 교차 검증 증분 특징 선택을 위해 무작위로 10개 부분으로 나누어졌다.
3) 각 지역의 후보 메틸화 세그먼트를 회귀계수의 유의도에 따라 내림차순으로 순위를 정하고, 매번 하나의 메틸화 세그먼트의 데이터를 추가하여 테스트 데이터를 예측하였다(지원 벡터 머신(SVM) 모델).
4) 3)단계에서는 2)단계에서 생성된 데이터의 복사본 10개를 사용하였다. 각 데이터 사본에 대해 10회 계산을 수행했으며 최종 AUC는 10회 계산의 평균이었다. 훈련 데이터의 AUC가 증가하면 후보 메틸화 세그먼트는 특징 메틸화 세그먼트로 유지되고, 그렇지 않으면 폐기된다.
HG19에서 선택된 특징적인 메틸화 마커의 분포는 다음과 같다: SIX3 유전자 영역의 서열번호 57, TLX2 유전자 영역의 서열번호 58, CILP2 유전자 영역의 서열번호 59. 췌장암 환자의 cfDNA에서는 위 메틸화 마커의 수준이 증가하거나 감소했다(표 31). 상기 3개 마커 영역의 서열은 서열번호 57-59에 제시되어 있다.
훈련 세트와 테스트 세트에서 췌장암 환자와 만성 췌장염 환자의 메틸화 마커의 평균 메틸화 수준을 각각 표 31과 표 32에 나타내었다. 췌장암 환자 및 만성 췌장염 환자의 훈련 세트 및 테스트 세트에서 3개의 메틸화 마커의 메틸화 수준 분포를 각각 도 38 및 도 39에 나타내었다. 상기 도면과 표에서 알 수 있듯이, 메틸화 마커의 메틸화 수준은 췌장암 환자와 만성췌장염 환자 사이에 유의미한 차이가 있어 좋은 구별 효과가 있음을 알 수 있다.
훈련 세트의 DNA 메틸화 마커의 메틸화 수준
서열 마커 췌장암 만성 췌장염
서열번호 57 chr2:45028785-45029307 0.843731054 0.909570522
서열번호 58 chr2:74742834-74743351 0.953274962 0.978544302
서열번호 59 chr19:19650745-19651270 0.408843665 0.514101315
테스트 세트의 DNA 메틸화 마커의 메틸화 수준
서열 마커 췌장암 만성 췌장염
서열번호 57 chr2:45028785-45029307 0.843896661 0.86791556
서열번호 58 chr2:74742834-74743351 0.926459851 0.954493044
서열번호 59 chr19:19650745-19651270 0.399831579 0.44918572
4-2: 머신러닝 기반 분류 예측 모델 구축
마커 DNA 메틸화 수준(예: 메틸화된 일배체형 분획)을 이용하여 췌장암 환자와 만성 췌장염 환자를 분류하는 잠재적인 능력을 검증하기 위해, 훈련 그룹에서 3가지 DNA 메틸화 마커의 조합을 기반으로 지원 벡터 기계 질병 분류 모델 pp_model을 구축했고, 서포트 벡터 머신 모델 예측 점수와 CA19-9 측정치의 결합 데이터 매트릭스를 기반으로 로지스틱 회귀 질환 분류 모델 cpp_model을 구축하고, 테스트 그룹에서 두 모델의 분류 예측 효과를 검증하였다. 훈련 그룹과 테스트 그룹을 비율에 따라 나누어, 훈련 그룹(샘플 1~80)에 80개의 샘플, 테스트 그룹(샘플 80~119)에 39개의 샘플을 포함시켰다.
발견된 DNA 메틸화 마커를 사용하여 훈련 세트에서 지원 벡터 머신 모델을 구축했다.
1) 샘플은 사전에 2개 부분으로 나누어졌고, 그 중 하나의 부분은 모델 훈련에 사용되었고, 다른 한 부분은 모델 테스트에 사용되었다.
2) 메틸화 마커를 이용한 췌장암 식별 가능성을 활용하기 위해 유전자 마커를 기반으로 한 질병 분류 시스템이 개발되었다. SVM 모델은 훈련 세트의 메틸화 마커 수준을 사용하여 훈련되었다. 구체적인 훈련 과정은 다음과 같다:
a) 훈련 모델은 Python 소프트웨어(v3.6.9)의 sklearn 소프트웨어 패키지(v0.23.1), 명령줄: pp_model = SVR()을 사용하여 구성된다.
b) sklearn 소프트웨어 패키지(v0.23.1)를 사용하여 SVM 모델 pp_model.fit(train_df, train_pheno)를 구성하기 위해 메틸화 수치 매트릭스를 입력한다. 여기서 train_df는 훈련 세트의 메틸화 수치 행렬을 나타내고, train_pheno는 훈련 세트의 표현형 정보를 나타내며, pp_model은 3개의 메틸화 마커 수치 행렬을 사용하여 구성된 SVM 모델을 나타낸다.
c) 훈련 세트와 테스트 세트 데이터를 각각 pp_model 모델로 가져와 예측 점수를 얻는다: train_pred = pp_model.predict(train_df)
test_pred = pp_model.predict( test_df )
여기서 train_df와 test_df는 각각 훈련 세트와 테스트 세트의 메틸화 수치 행렬이고, train_pred와 test_pred는 각각 훈련 세트와 테스트 세트 데이터의 pp_model 모델 예측 점수이다.
3) 췌장암 환자와 췌장염 환자의 구별 능력을 향상시키기 위해 CA19-9의 검출값을 모델에 포함시켰다. 구체적인 과정은 다음과 같다:
d) 훈련 세트의 SVM 모델 예측 값과 해당 CA19-9 측정 데이터가 데이터 매트릭스로 결합되어 표준화된다:
Combine_scalar_train = RobustScaler ().fit( Combine_train_df )
Combine_scalar_test = RobustScaler ().fit( Combine_test_df )
scaled_combine_train_df=Combine_scalar_train.transform(combine_train_df)
scaled_combine_test_df = Combine_scalar_test.transform(combine_test_df)
여기서 Combine_train_df와 Combine_test_df는 각각 테스트 세트 샘플과 트레이닝 세트 샘플의 예시에서 구성한 pp_model 예측 모델에서 얻은 예측 점수를 CA19-9와 결합한 데이터 행렬을 나타낸다; caled_combine_train_df와 scaled_combine_test_df는 각각 표준화 후 훈련 세트와 테스트 세트의 데이터 행렬을 나타낸다.
e) 훈련 세트 pp_model 모델 예측 점수와 CA19-9 측정값의 결합된 표준화 데이터 매트릭스를 사용하여 로지스틱 회귀 모델을 구축하고, 이 모델을 사용하여 테스트 세트 pp_model 모델 예측 점수와 CA19-9 측정의 결합된 표준화 데이터 매트릭스를 예측한다:
cpp_model = LogisticRegression().fit(scaled_combine_train_df, train_pheno)
Combine_test_pred = cpp_model.predict(scaled_combine_test_df)
여기서 cpp_model은 CA19-9 탐지 값을 통합하고 표준화된 훈련 세트 데이터 매트릭스를 사용하여 피팅된 로지스틱 회귀 모델을 나타낸다; Combine_test_pred는 테스트 세트에서 cpp_model의 예측 점수를 나타낸다.
모델을 구축하는 과정에서 췌장암 유형은 1로 코딩하고, 만성췌장염 유형은 0으로 코딩하였다.모델 예측 점수 분포에 따르면 pp_model 및 cpp_model 임계값은 각각 0.892 및 0.885로 설정된다. 두 모델을 기반으로 예측 점수가 임계값보다 높으면 환자는 췌장암으로 분류되고, 그렇지 않으면 환자는 췌장염으로 분류된다.
훈련 세트와 테스트 세트 샘플에 대한 두 모델의 예측 점수는 각각 표 33과 표 34에 나와 있다. 예측 점수의 분포는 도 40에 나와 있다. 두 개의 머신 러닝 모델과 CA19-9 측정값만의 ROC 곡선은 도 41에 나와 있으며, 여기서 CA19-9 단독의 AUC 값은 0.84, pp_model의 AUC 값은 0.88, cpp_model의 AUC 값은 0.90이다. 3개의 메틸화 마커를 이용하여 구축한 SVM 모델(pp_model)의 성능은 CA-19에 비해 월등히 우수하였으며, pp_model 모델의 예측값에 CA19-9 탐지값을 추가하여 구축한 로지스틱 회귀모델 cpp_model의 성능도 pp_model보다 우수하다.
결정된 임계값은 테스트 세트의 통계에 사용된다(인식된 임계값 37은 CA19-9에 사용됨). 민감도와 특이도는 표 35에 나와 있다. 테스트 세트의 특이도가 100%일 때 췌장암 환자에 대한 cpp_model의 민감도는 87%에 도달할 수 있으며 성능은 pp_model 및 CA19-9보다 우수하다.
또한 CA19-9(<37)에 대해 음성으로 확인된 샘플에서 두 모델의 성능을 통계적으로 분석했다. 그 결과를 표 36에 나타내었다. cpp_model은 테스트 세트에서 CA19-9에 대해 음성으로 확인된 췌장암 환자에 대해 여전히 63%의 민감도와 100%의 특이도에 도달할 수 있음을 알 수 있다.
훈련 세트에 있는 두 모델의 예측 점수와 차별화 결과
샘플 타입 CA19-9 PP_ score PP_call CPP_score CPP_call
샘플 1 췌장염 1 0.593 췌장염 0.306 췌장염
샘플 2 췌장암 2 0.911 췌장암 0.891 췌장암
샘플 3 췌장염 2.57 0.679 췌장염 0.492 췌장염
샘플 4 췌장염 2.61 0.815 췌장염 0.771 췌장염
샘플 5 췌장암 3.17 0.913 췌장암 0.893 췌장암
샘플 6 췌장암 3.8 0.924 췌장암 0.902 췌장암
샘플 7 췌장암 4.19 0.978 췌장암 0.938 췌장암
샘플 8 췌장염 5 0.245 췌장염 0.018 췌장염
샘플 9 췌장염 7 0.869 췌장염 0.849 췌장염
샘플 10 췌장암 14.05 1.009 췌장암 0.953 췌장암
샘플 11 췌장암 18.14 0.917 췌장암 0.899 췌장암
샘플 12 췌장암 18.47 0.673 췌장염 0.485 췌장염
샘플 13 췌장암 20 0.894 췌장암 0.877 췌장염
샘플 14 췌장암 21.13 0.864 췌장염 0.846 췌장염
샘플 15 췌장암 23.57 0.973 췌장암 0.937 췌장암
샘플 16 췌장암 24.26 0.847 췌장염 0.824 췌장염
샘플 17 췌장염 26.21 0.874 췌장염 0.858 췌장염
샘플 18 췌장염 28.35 0.234 췌장염 0.017 췌장염
샘플 19 췌장염 30.3 0.212 췌장염 0.014 췌장염
샘플 20 췌장암 33.99 0.898 췌장암 0.884 췌장염
샘플 21 췌장암 35 1.172 췌장암 0.989 췌장암
샘플 22 췌장암 37.78 0.993 췌장암 0.948 췌장암
샘플 23 췌장암 39.08 0.929 췌장암 0.911 췌장암
샘플 24 췌장암 42.44 0.902 췌장암 0.889 췌장암
샘플 25 췌장암 52.11 0.910 췌장암 0.897 췌장암
샘플 26 췌장암 54.62 0.900 췌장암 0.889 췌장암
샘플 27 췌장암 59 0.901 췌장암 0.890 췌장암
샘플 28 췌장암 67.3 1.100 췌장암 0.981 췌장암
샘플 29 췌장암 72.52 0.897 췌장암 0.889 췌장암
샘플 30 췌장암 91.9 0.899 췌장암 0.893 췌장암
샘플 31 췌장암 93.7 1.100 췌장암 0.981 췌장암
샘플 32 췌장암 101.1 1.244 췌장암 0.995 췌장암
샘플 33 췌장암 106 0.900 췌장암 0.896 췌장암
샘플 34 췌장암 115.6 1.016 췌장암 0.962 췌장암
샘플 35 췌장암 129.1 0.934 췌장암 0.924 췌장암
샘플 36 췌장암 130.68 1.323 췌장암 0.998 췌장암
샘플 37 췌장암 137 0.892 췌장암 0.893 췌장암
샘플 38 췌장암 143.77 0.865 췌장염 0.869 췌장염
샘플 39 췌장암 144 0.943 췌장암 0.931 췌장암
샘플 40 췌장암 168.47 0.896 췌장암 0.900 췌장암
샘플 41 췌장암 176 0.894 췌장암 0.899 췌장암
샘플 42 췌장암 177.5 0.973 췌장암 0.949 췌장암
샘플 43 췌장암 188.1 0.994 췌장암 0.958 췌장암
샘플 44 췌장염 216 0.899 췌장암 0.908 췌장암
샘플 45 췌장암 262.77 0.899 췌장암 0.913 췌장암
샘플 46 췌장암 336.99 0.906 췌장암 0.923 췌장암
샘플 47 췌장암 440.56 0.947 췌장암 0.951 췌장암
샘플 48 췌장암 482.61 1.037 췌장암 0.979 췌장암
샘플 49 췌장암 488 0.900 췌장암 0.929 췌장암
샘플 50 췌장암 535 0.898 췌장암 0.930 췌장암
샘플 51 췌장암 612 0.900 췌장암 0.934 췌장암
샘플 52 췌장암 614.32 0.900 췌장암 0.935 췌장암
샘플 53 췌장암 670 0.950 췌장암 0.959 췌장암
샘플 54 췌장암 683.78 0.531 췌장염 0.336 췌장염
샘플 55 췌장암 685.45 1.039 췌장암 0.982 췌장암
샘플 56 췌장암 771 0.919 췌장암 0.949 췌장암
샘플 57 췌장암 836.06 0.975 췌장암 0.970 췌장암
샘플 58 췌장암 849 1.001 췌장암 0.976 췌장암
샘플 59 췌장암 974 0.919 췌장암 0.953 췌장암
샘플 60 췌장암 1149.48 1.100 췌장암 0.991 췌장암
샘플 61 췌장암 1200 0.965 췌장암 0.970 췌장암
샘플 62 췌장암 1200 0.905 췌장암 0.950 췌장암
샘플 63 췌장암 1200 0.899 췌장암 0.947 췌장암
샘플 64 췌장염 1200 0.899 췌장암 0.947 췌장암
샘플 65 췌장암 1200 0.900 췌장암 0.947 췌장암
샘플 66 췌장암 1200 0.887 췌장염 0.941 췌장암
샘플 67 췌장암 1200 1.035 췌장암 0.984 췌장암
샘플 68 췌장암 1200 0.900 췌장암 0.948 췌장암
샘플 69 췌장암 1200 0.981 췌장암 0.974 췌장암
샘플 70 췌장암 1200 0.906 췌장암 0.950 췌장암
샘플 71 췌장암 1200 1.101 췌장암 0.991 췌장암
샘플 72 췌장암 1200 0.899 췌장암 0.947 췌장암
샘플 73 췌장염 NA 0.760 췌장염 NA NA
샘플 74 췌장염 NA 0.888 췌장염 NA NA
샘플 75 췌장염 NA 0.707 췌장염 NA NA
샘플 76 췌장염 NA 0.763 췌장염 NA NA
샘플 77 췌장염 NA 0.820 췌장염 NA NA
샘플 78 췌장염 NA 0.786 췌장염 NA NA
샘플 79 췌장염 NA 0.647 췌장염 NA NA
샘플 80 췌장암 NA 0.825 췌장염 NA NA
훈련 세트에 있는 두 모델의 예측 점수와 차별화 결과
샘플 타입 CA19-9 PP_score PP_call CPP_score CPP_call
샘플 81 췌장염 NA 0.610 췌장염 NA NA
샘플 82 췌장염 NA 0.898 췌장암 NA NA
샘플 83 췌장염 NA 0.783 췌장염 NA NA
샘플 84 췌장염 NA 0.725 췌장염 NA NA
샘플 85 췌장암 1200 0.910 췌장암 0.957 췌장암
샘플 86 췌장암 1200 1.355 췌장암 0.999 췌장암
샘플 87 췌장암 1200 0.912 췌장암 0.953 췌장암
샘플 88 췌장암 1200 0.870 췌장염 0.932 췌장암
샘플 89 췌장암 1200 15.628 췌장암 1.000 췌장암
샘플 90 췌장암 1200 0.970 췌장암 0.972 췌장암
샘플 91 췌장암 1200 0.917 췌장암 0.955 췌장암
샘플 92 췌장암 1200 0.818 췌장염 0.895 췌장암
샘플 93 췌장암 1200 0.921 췌장암 0.956 췌장암
샘플 94 췌장암 1200 0.910 췌장암 0.952 췌장암
샘플 95 췌장암 768.08 3.716 췌장암 1.000 췌장암
샘플 96 췌장암 373.2 0.893 췌장암 0.917 췌장암
샘플 97 췌장암 343.9 0.897 췌장암 0.918 췌장암
샘플 98 췌장암 224 0.923 췌장암 0.925 췌장암
샘플 99 췌장암 220.5 0.998 췌장암 0.961 췌장암
샘플 100 췌장암 186 0.910 췌장암 0.913 췌장암
샘플 101 췌장암 135 0.912 췌장암 0.909 췌장암
샘플 102 췌장암 86 0.901 췌장암 0.894 췌장암
샘플 103 췌장암 66.68 0.956 췌장암 0.931 췌장암
샘플 104 췌장암 63.8 0.966 췌장암 0.937 췌장암
샘플 105 췌장암 55.9 0.765 췌장염 0.699 췌장염
샘플 106 췌장암 52.64 1.241 췌장암 0.995 췌장암
샘플 107 췌장암 41.74 1.492 췌장암 0.999 췌장암
샘플 108 췌장암 30 0.914 췌장암 0.897 췌장암
샘플 109 췌장암 24.78 0.879 췌장염 0.863 췌장염
샘플 110 췌장암 24.1 1.823 췌장암 1.000 췌장암
샘플 111 췌장암 21 0.934 췌장암 0.912 췌장암
샘플 112 췌장암 10.29 1.079 췌장암 0.975 췌장암
샘플 113 췌장암 7.41 1.069 췌장암 0.972 췌장암
샘플 114 췌장암 7 0.730 췌장염 0.611 췌장염
샘플 115 췌장염 6 0.893 췌장암 0.875 췌장염
샘플 116 췌장염 5.56 0.899 췌장암 0.880 췌장염
샘플 117 췌장암 4.61 0.851 췌장염 0.825 췌장염
샘플 118 췌장염 2.42 0.904 췌장암 0.885 췌장염
샘플 119 췌장염 1 0.852 췌장염 0.826 췌장염
CA19-9와 두 가지 기계 학습 모델의 민감도와 특이도
모델 데이터 세트 민감도 특이도
CA19-9 훈련 세트 0.79 0.80
테스트 세트 0.74 1.00
pp_model 훈련 세트 0.90 0.80
테스트 세트 0.81 0.25
cpp_model 훈련 세트 0.89 0.80
테스트 세트 0.87 1.00
CA19-9와 관련하여 음성으로 식별된 샘플에서 두 가지 기계 학습 모델의 성능
모델 데이터 세트 민감도 특이도
pp_model 훈련 세트 0.77 1.00
테스트 세트 0.63 0.25
cpp_model 훈련 세트 0.62 1.00
테스트 세트 0.63 1.00
이 연구에서는 혈장 cfDNA의 메틸화 마커의 메틸화 수준을 사용하여 만성 췌장염 환자의 혈장과 췌장암 환자의 혈장 간의 차이를 연구하고 유의미한 차이가 있는 3개의 DNA 메틸화 마커를 선별했다. 상기 CA19-9 검출값이 조합된 DNA 메틸화 마커 클러스터를 기반으로 서포트 벡터 머신과 로지스틱 회귀분석 방법을 통해 악성 췌장암 위험 예측 모델을 구축하였고, 구축된 모델은 췌장암 환자와 만성췌장염 진단 환자에서 만성췌장염 환자를 높은 민감도와 특이도로 효과적으로 감별할 수 있으며, 만성췌장염 환자에서 췌장암 선별 및 진단에 적합하다.
실시예 5
5-1. 췌관 선암종(pancreatic ductal adenocarcinoma), 인접 조직 및 백혈구 DNA 샘플의 메틸화 풍부도 비교
DNA 시료는 췌관선암종 환자의 췌장, 암 조직 및 주변 조직에 이상이 없는 건강한 사람의 백혈구(백혈구 시료 30개, 암 조직 시료 30개 포함)로부터 채취하였다. 혈장 무세포 DNA의 대부분은 백혈구 파열 후 방출된 DNA에서 유래하고, 그 배경은 혈장 무세포 DNA 검출 부위의 기본 배경 신호가 될 수 있기 때문에 백혈구 DNA를 표준 샘플로 선택했다. 설명서에 따라 Qiagen QIAamp DNA Mini Kit를 사용하여 백혈구 DNA를 추출하고, Qiagen QIAamp DNA FFPE Tissue Kit를 사용하여 조직 DNA를 추출했다. cfDNA의 농도는 QubitTM dsDNA HS Assay Kit(Thermo, 카탈로그 번호: Q32854)를 사용하여 검출되었다.
상기 단계에서 얻은 DNA 샘플 20ng을 bisulfite 시약(MethylCodeTM Bisulfite Conversion Kit, Thermo, 카탈로그 번호: MECOV50)으로 처리하여 변환된 DNA를 얻었다.
PCR 반응 시스템에서 각 프라이머의 최종 농도는 100nM이고, 각 검출 프로브의 최종 농도는 100nM이다. 예를 들어, PCR 반응 시스템에는 10 μL ~ 12.50 μL의 2x PCR 반응 혼합물, 0.12 μL의 정방향 프라이머 및 역방향 프라이머, 0.04 μL의 프로브, 6 μL의 샘플 DNA(약 10ng)을 포함하고, 물로 총 부피 약 20μL를 구성할 수 있다.
프라이머 및 프로브 서열은 표 37에 나와 있다. 예를 들어, PCR 반응 조건은 다음과 같을 수 있다: 95℃에서 5분; 95℃에서 20초, 60℃에서 45초(형광 수집), 50사이클. ABI 7500 Real-Time PCR 시스템은 해당 형광 채널에서 다양한 형광을 검출하는 데 사용되었다. 백혈구, 인접 조직 및 암 조직에서 얻은 샘플의 Ct 값을 계산하고 비교했다, 메틸화 수준 = 2- ΔCt sample to be tested/ 2- ΔCt positive standard Х 100 %. ΔCt = Cttarget gene- Ctinternal reference gene.
프라이머 및 프로브 서열
서열번호 이름 서열
165 TLX2 probe 1 cgGGcgtttcgtTGAtttcgc
166 TLX2 forward primer 1 GttTGGTGAGAAGcgAc
167 TLX2 reverse primer 1 gCcgTCTaacgCCTAAa
169 TLX2 probe 2 CGACCGCTACGACCGCC
170 TLX2 forward primer 2 CATCTACAACAAAACGCG
171 TLX2 reverse primer 2 GTTTTGTAGCGCGAAGAG
173 EBF2 probe 1 AGcgtttcgcgcgttcgG
174 EBF2 forward primer 1 cgtTtAtTcgGtttcgtAcg
175 EBF2 reverse primer 1 CCTCCCTTATCcgAaaAaaaC
177 EBF2 probe 2 TTTCGGATCGCGGCGGAG
178 EBF2 forward primer 2 GTTCGTTAGTCGGTAGGG
179 EBF2 reverse primer 2 GCAACAAAATATACGCTCGA
181 KCNA6 probe 1 ATCCCTTACGCTAACGACGCC
182 KCNA6 forward primer 1 AACGCACCTCCGAAAAAA
183 KCNA6 reverse primer 1 TGTTTTTTTTTCGGTTTACGG
185 KCNA6 probe 2 CCGCGAACCGAAAAAAACGCG
186 KCNA6 forward primer 2 ACCAAAACTTTAAAACTCACG
187 KCNA6 reverse primer 2 GATATAATTTTTGGAGCGCG
189 KCNA6 probe 3 CCGAACACGCTACTCGAAAACCC
190 KCNA6 forward primer 3 CAATATCTCCGAACTACGC
191 KCNA6 reverse primer 3 GAAGAAGCGGATTCGTCG
193 CCNA1 probe 1 cgGtTTtAcgtAGTTGcgtAGGAGt
194 CCNA1 forward primer 1 GGttAtAATtTTGGtTTTttcgGG
195 CCNA1 reverse primer 1 gAaAaaTCTTCCCCcgcg
197 CCNA1 probe 2 CGCGGTCGGGTCGTTCGTTC
198 CCNA1 forward primer 2 TAGGCGTTTGAGTTTTCG
199 CCNA1 reverse primer 2 GATAACAACTCTCCGAACT
201 CCNA1 probe 3 CGCGACCCGCAAAAACCC
202 CCNA1 forward primer 3 CGTAAAAACCTCGAACACG
203 CCNA1 reverse primer 3 TGTTGCGTTTTTATCGCG
205 FOXD3 probe CGCGAAACCGCCGAAACTACG
206 FOXD3 forward primer GTATTTCGTTCGTTTCGTTTA
207 FOXD3 reverse primer ACGCAAATTACGATAACCC
209 TRIM58 probe CGCGCCGTCCGACTTCTCG
210 TRIM58 forward primer GGATTGCGGTTATAGTTTTTG
211 TRIM58 reverse primer CGACACTACGAACAAACGT
213 HOXD10 probe ACGCGTCTCTCCCCGCAA
214 HOXD10 forward primer TCCCTAACCCAAACTACG
215 HOXD10 reverse primer TTAGGATATGGTTAGGCGTTGTC
217 OLIG3 probe CACGAAATTAACCGCGTACGC
218 OLIG3 forward primer GCCCAAAATAAAATACACCG
219 OLIG3 reverse primer GTTATTCGGTCGGTTATTTC
221 EN2 probe AACGCGAAACCGCGAACCC
222 EN2 forward primer CACTAACAATTCGTTCTACAC
223 EN2 reverse primer CGAGGACGTAAATATTATTGAGG
225 CLEC11A probe CGTCGTCAAAAACCTACGCCACG
226 CLEC11A forward primer GTGGTACGTTCGAGAATTG
227 CLEC11A reverse primer CGTAATAAAAACGCCGCTAA
229 TWIST1 probe CGCGCTTACCGCTCGACGA
230 TWIST1 forward primer CTACTACTACGCCGCTTAC
231 TWIST1 reverse primer GCGAGGAAGAGTTAGATCG
161 ACTB probe ACCACCACCCAACACACAATAACAAACACA
162 ACTB forward primer TGGAGGAGGTTTAGTAAGTTTTTTG
163 ACTB reverse primer CCTCCCTTAAAAATTACAAAAACCA
샘플 테스트 결과 요약
샘플 테스트 AUC 결과 요약
결과는 암 조직의 메틸화 신호의 양성 비율이 백혈구 샘플의 양성 비율보다 훨씬 높을 수 있음을 보여 주며, 이는 또한 암 조직의 메틸화 신호를 나타낸다. 대부분의 백혈구 샘플에서는 표적 메틸화 신호가 검출되지 않았다. 이러한 표적은 모두 췌장암에 대한 혈액 검사에 사용될 가능성이 있다. 이는 종양 조직에 대해 선택된 표적 마커의 타당성과 특이성을 입증한다.
특이도가 90% 이상인 경우 검출 부위의 검출 민감도 통계를 아래 표에 나타내었다. 선택된 표적 마커는 종양 조직에 대한 민감도가 높다는 것이 입증되었다.
탐지 부위의 탐지 감도
췌관 선암종 환자와 췌장에 이상이 없는 환자의 혈장 샘플에서 메틸화 신호 비교
췌장에 이상이 없는 건강한 대조군 100명의 혈장과 췌관 선암종 환자 100명의 혈장을 테스트 대상으로 선택했다: 상용 QIAamp DNA Mini Kit(QIAGEN, 카탈로그 번호: 51304)를 사용하여 상기 혈장 샘플로부터 세포외 DNA를 추출하였다. 추출된 세포외 유리 DNA에 상용 중아황산염 변환 시약인 MethylCodeTM Bisulfite 변환 키트를 사용하여 아황산염 변환 처리를 수행하여 변환된 DNA를 얻었다.
상기 PCR 반응 시스템을 사용하여 형광 PCR 검출을 수행하였다. 표 37과 같은 프라이머와 프로브 서열을 사용하였고, 대조군으로 참조 유전자 ACTB를 동시에 시험하였다. 프라이머의 최종 농도는 500nM이고 프로브의 최종 농도는 200nM이다. PCR 반응 시스템에는 다음이 포함되어 있다: 사전 증폭 희석 제품 10μL, 검출 부위용 프라이머 및 프로브 마스터 믹스 2.5μL; PCR 시약 12.5 μL(Luna®Universal Probe qPCR Master Mix(NEB)).
형광 PCR 반응 시스템은 실시예 5-1과 동일하다. PCR 반응 조건은 다음과 같다: 95℃에서 5분; 95℃에서 15초, 56℃에서 40초(형광 수집), 50 사이클. 다른 유전자 프로브 변형 형광에 따라 해당 검출 형광 채널이 선택되었다. 메틸화 수준 = 2^(-ΔCt sample to be tested)/2^(-ΔCt positive standard) Х 100 %. ΔCt = Ct target gene- Ct internal reference gene.
샘플 테스트 결과 요약
샘플 테스트 AUC 결과 요약
결과는 본 출원의 모든 표적이 췌장 관 선암종에 대한 혈액 검출에 사용될 수 있음을 보여준다. 이는 종양 조직에 대해 선택된 표적 마커의 타당성과 특이성을 입증한다.
실시예 6
6-1. EBF2와 CCNA1의 조합으로 췌장암 예측
본 발명자들은 췌장암 환자 115명과 건강한 대조군 85명의 혈장 cfDNA에 대해 메틸화 특이적 PCR을 수행했으며, 본 출원의 유전자 조합의 DNA 메틸화 수준을 이용하여 췌장암 혈장과 정상인의 혈장을 구별할 수 있음을 발견하였다.
cfDNA는 QIAamp DNA 미니 키트(QIAGEN, 카탈로그 번호: 51304)를 사용하여 췌장암 환자 115명과 건강한 대조군 85명의 혈장에서 추출되었다; QubitTM dsDNA HS Assay Kit(Thermo, 카탈로그 번호: Q32854)를 사용하여 DNA 농도를 검출했다; 품질검사는 1% 아가로스겔 전기영동으로 실시하였다.
1단계에서 얻은 DNA를 MethylCodeTM Bisulfite Conversion Kit(Thermo, 카탈로그 번호: MECOV50)를 이용하여 중아황산염으로 변환시켰다. 메틸화되지 않은 시토신(C)은 우라실(U)로 변환되었고; 메틸화된 시토신은 변환 후에도 변하지 않았다.
프라이머 및 프로브 서열은 표 38에 나와 있다.
프라이머 서열
서열번호 이름 서열
173 EBF2 probe AGcgtttcgcgcgttcgG
174 EBF2 forward primer cgtTtAtTcgGtttcgtAcg
175 EBF2 reverse primer CCTCCCTTATCcgAaaAaaaC
193 CCNA1 probe cgGtTTtAcgtAGTTGcgtAGGAGt
194 CCNA1 forward primer GGttAtAATtTTGGtTTTttcgGG
195 CCNA1 reverse primer gAaAaaTCTTCCCCcgcg
161 ACTB probe ACCACCACCCAACACACAATAACAAACACA
162 ACTB forward primer TGGAGGAGGTTTAGTAAGTTTTTTG
163 ACTB reverse primer CCTCCCTTAAAAATTACAAAAACCA
다중 메틸화 특이적 PCR 방법(Multiplex MSP)을 사용했다. PCR 혼합물은 PCR 반응액, 프라이머 혼합물, 프로브 혼합물을 포함하여 단일 시료를 준비하였다. 프라이머 혼합물은 본 출원의 유전자 조합과 내부 참조 유전자 각각에 대한 한 쌍의 프라이머를 포함한다.PCR 반응 시스템은 다음과 같다: 샘플 cfDNA/양성 대조군/음성 대조군 5.00 μL, 멀티플렉스 프라이머 혼합물(100 μM) 3.40 μL, 물 4.10 μL, 2x PCR 반응 혼합물 12.5 μL.
PCR 프로그램은 94℃에서 2분 동안 사전 변성, 94℃에서 30초 동안 변성, 60℃에서 1분 동안 어닐링, 45주기로 설정되었다. 60℃에서 어닐링 및 신장 단계 동안 형광 신호가 수집되었다.
메틸화 수준 = Ctinternal reference gene --Cttarget gene.
본 출원의 유전자 조합의 메틸화 수준에 대해 이진 로지스틱 회귀 분석(Binary logistic regression analysis)을 수행하고 방정식을 피팅하였다. 예를 들어, 예시식의 점수가 0보다 큰 경우, 선별 결과는 양성, 즉 악성 결절이다.
예시적인 피팅 방정식은 다음과 같다: 점수=3.54632 + EBF2 메틸화 수준Х0.04422 + CCNA1 메틸화 수준Х0.06956.
ROC에 의해 분석된 바와 같이, 본 출원의 유전자 조합은 78%의 특이도, 62%의 민감도 및 0.689의 AUC를 갖는다.
결과는 대조 혈장과 췌관 선암종 혈장 사이의 본 출원의 검출 부위 조합의 DNA 메틸화 신호의 비교를 보여준다. 선택된 표적 마커는 종양 검출에 대한 민감도가 높다는 것이 입증되었다.
6-2. 췌장암 예측을 위한 KCNA6, TLX2, EMX1의 조합
본 발명자들은 췌장암 환자 115명과 건강한 대조군 85명의 혈장 cfDNA에 대해 메틸화 특이적 PCR을 수행했으며, 본 출원의 유전자 조합의 DNA 메틸화 수준을 이용하여 췌장암 혈장과 정상인의 혈장을 구별할 수 있음을 발견하였다.
cfDNA는 QIAamp DNA 미니 키트(QIAGEN, 카탈로그 번호: 51304)를 사용하여 췌장암 환자 115명과 건강한 대조군 85명의 혈장에서 추출되었다; QubitTM dsDNA HS Assay Kit(Thermo, 카탈로그 번호: Q32854)를 사용하여 DNA 농도를 검출했다; 품질검사는 1% 아가로스겔 전기영동으로 실시하였다.
1단계에서 얻은 DNA를 MethylCodeTM Bisulfite Conversion Kit(Thermo, 카탈로그 번호: MECOV50)를 이용하여 중아황산염으로 변환시켰다. 메틸화되지 않은 시토신(C)은 우라실(U)로 변환되었고; 메틸화된 시토신은 변환 후에도 변하지 않았다.
프라이머 및 프로브 서열은 표 39에 나와 있다.
프라이머 서열
서열번호 이름 서열
181 KCNA6 probe ATCCCTTACGCTAACGACGCC
182 KCNA6 forward primer AACGCACCTCCGAAAAAA
183 KCNA6 reverse primer TGTTTTTTTTTCGGTTTACGG
165 TLX2 probe cgGGcgtttcgtTGAtttcgc
166 TLX2 forward primer GttTGGTGAGAAGcgAc
167 TLX2 reverse primer gCcgTCTaacgCCTAAa
233 EMX1 probe TcgTcgtcgtTGtAGAcgGA
234 EMX1 forward primer GTAGcgtTGTTGtTTcgc
235 EMX1 reverse primer gTAaAaCcgCcgaaaAacgC
161 ACTB probe ACCACCACCCAACACACAATAACAAACACA
162 ACTB forward primer TGGAGGAGGTTTAGTAAGTTTTTTG
163 ACTB reverse primer CCTCCCTTAAAAATTACAAAAACCA
다중 메틸화 특이적 PCR 방법(Multiplex MSP)을 사용했다. PCR 혼합물은 PCR 반응액, 프라이머 혼합물, 프로브 혼합물을 포함하여 단일 시료를 준비하였다. 프라이머 혼합물은 본 출원의 유전자 조합과 내부 참조 유전자 각각에 대한 한 쌍의 프라이머를 포함한다.PCR 반응 시스템은 다음과 같다: 샘플 cfDNA/양성 대조군/음성 대조군 5.00 μL, 멀티플렉스 프라이머 혼합물(100 μM) 3.40 μL, 물 4.10 μL, 2x PCR 반응 혼합물 12.5 μL.
PCR 프로그램은 94℃에서 2분 동안 사전 변성, 94℃에서 30초 동안 변성, 60℃에서 1분 동안 어닐링, 45주기로 설정되었다. 60℃에서 어닐링 및 신장 단계 동안 형광 신호가 수집되었다.
메틸화 수준 = Ctinternal reference gene --Cttarget gene.
본 출원의 유전자 조합의 메틸화 수준에 대해 이진 로지스틱 회귀 분석(Binary logistic regression analysis)을 수행하고 방정식을 피팅하였다. 예를 들어, 예시식의 점수가 0보다 큰 경우, 선별 결과는 양성, 즉 악성 결절이다.
예시적인 피팅 방정식은 다음과 같다: 점수=3.48511 + KCNA6 메틸화 수준Х0.04870 + TLX2 메틸화 수준Х0.00464+EMX1 메틸화 수준Х0.06555.
ROC에 의해 분석된 바와 같이, 본 출원의 유전자 조합은 81%의 특이도, 63%의 민감도 및 0.735의 AUC를 갖는다.
결과는 대조 혈장과 췌관 선암종 혈장 사이의 본 출원의 검출 부위 조합의 DNA 메틸화 신호의 비교를 보여준다. 선택된 표적 마커는 종양 검출에 대한 민감도가 높다는 것이 입증되었다.
6-3. 췌장암 예측을 위한 TRIM58, TWIST1, FOXD3, EN2의 조합
본 발명자들은 췌장암 환자 115명과 건강한 대조군 85명의 혈장 cfDNA에 대해 메틸화 특이적 PCR을 수행했으며, 본 출원의 유전자 조합의 DNA 메틸화 수준을 이용하여 췌장암 혈장과 정상인의 혈장을 구별할 수 있음을 발견하였다.
cfDNA는 QIAamp DNA 미니 키트(QIAGEN, 카탈로그 번호: 51304)를 사용하여 췌장암 환자 115명과 건강한 대조군 85명의 혈장에서 추출되었다; QubitTM dsDNA HS Assay Kit(Thermo, 카탈로그 번호: Q32854)를 사용하여 DNA 농도를 검출했다; 품질검사는 1% 아가로스겔 전기영동으로 실시하였다.
1단계에서 얻은 DNA를 MethylCodeTM Bisulfite Conversion Kit(Thermo, 카탈로그 번호: MECOV50)를 이용하여 중아황산염으로 변환시켰다. 메틸화되지 않은 시토신(C)은 우라실(U)로 변환되었고; 메틸화된 시토신은 변환 후에도 변하지 않았다.
프라이머 및 프로브 서열은 표 40에 나와 있다.
프라이머 서열
서열번호 이름 서열
209 TRIM58 probe CGCGCCGTCCGACTTCTCG
210 TRIM58 forward primer GGATTGCGGTTATAGTTTTTG
211 TRIM58 reverse primer CGACACTACGAACAAACGT
229 TWIST1 probe CGCGCTTACCGCTCGACGA
230 TWIST1 forward primer CTACTACTACGCCGCTTAC
231 TWIST1 reverse primer GCGAGGAAGAGTTAGATCG
205 FOXD3 probe CGCGAAACCGCCGAAACTACG
206 FOXD3 forward primer GTATTTCGTTCGTTTCGTTTA
207 FOXD3 reverse primer ACGCAAATTACGATAACCC
221 EN2 probe AACGCGAAACCGCGAACCC
222 EN2 forward primer CACTAACAATTCGTTCTACAC
223 EN2 reverse primer CGAGGACGTAAATATTATTGAGG
161 ACTB probe ACCACCACCCAACACACAATAACAAACACA
162 ACTB forward primer TGGAGGAGGTTTAGTAAGTTTTTTG
163 ACTB reverse primer CCTCCCTTAAAAATTACAAAAACCA
다중 메틸화 특이적 PCR 방법(Multiplex MSP)을 사용했다. PCR 혼합물은 PCR 반응액, 프라이머 혼합물, 프로브 혼합물을 포함하여 단일 시료를 준비하였다. 프라이머 혼합물은 본 출원의 유전자 조합과 내부 참조 유전자 각각에 대한 한 쌍의 프라이머를 포함한다.PCR 반응 시스템은 다음과 같다: 샘플 cfDNA/양성 대조군/음성 대조군 5.00 μL, 멀티플렉스 프라이머 혼합물(100 μM) 3.40 μL, 물 4.10 μL, 2x PCR 반응 혼합물 12.5 μL.
PCR 프로그램은 94℃에서 2분 동안 사전 변성, 94℃에서 30초 동안 변성, 60℃에서 1분 동안 어닐링, 45주기로 설정되었다. 60℃에서 어닐링 및 신장 단계 동안 형광 신호가 수집되었다.
메틸화 수준 = Ctinternal reference gene --Cttarget gene.
본 출원의 유전자 조합의 메틸화 수준에 대해 이진 로지스틱 회귀 분석(Binary logistic regression analysis)을 수행하고 방정식을 피팅하였다. 예를 들어, 예시식의 점수가 0보다 큰 경우, 선별 결과는 양성, 즉 악성 결절이다.
예시적인 피팅 방정식은 다음과 같다: 점수=1.76599 + TRIM58 메틸화 수준Х0.03214 + TWIST1 메틸화 수준Х0.02187+FOXD3 메틸화 수준Х0.03075 + EN2 메틸화 수준Х0.04429.
ROC에 의해 분석된 바와 같이, 본 출원의 유전자 조합은 80%의 특이도, 64%의 민감도 및 0.735의 AUC를 갖는다.
결과는 대조 혈장과 췌관 선암종 혈장 사이의 본 출원의 검출 부위 조합의 DNA 메틸화 신호의 비교를 보여준다. 선택된 표적 마커는 종양 검출에 대한 민감도가 높다는 것이 입증되었다.
6-4. 췌장암 예측을 위한 TRIM58, TWIST1, CLEC11A, HOXD10, OLIG3의 조합
본 발명자들은 췌장암 환자 115명과 건강한 대조군 85명의 혈장 cfDNA에 대해 메틸화 특이적 PCR을 수행했으며, 본 출원의 유전자 조합의 DNA 메틸화 수준을 이용하여 췌장암 혈장과 정상인의 혈장을 구별할 수 있음을 발견하였다.
cfDNA는 QIAamp DNA 미니 키트(QIAGEN, 카탈로그 번호: 51304)를 사용하여 췌장암 환자 115명과 건강한 대조군 85명의 혈장에서 추출되었다; QubitTM dsDNA HS Assay Kit(Thermo, 카탈로그 번호: Q32854)를 사용하여 DNA 농도를 검출했다; 품질검사는 1% 아가로스겔 전기영동으로 실시하였다.
1단계에서 얻은 DNA를 MethylCodeTM Bisulfite Conversion Kit(Thermo, 카탈로그 번호: MECOV50)를 이용하여 중아황산염으로 변환시켰다. 메틸화되지 않은 시토신(C)은 우라실(U)로 변환되었고; 메틸화된 시토신은 변환 후에도 변하지 않았다.
프라이머 및 프로브 서열은 표 41에 나와 있다.
프라이머 서열
서열번호 이름 서열
209 TRIM58 probe CGCGCCGTCCGACTTCTCG
210 TRIM58 forward primer GGATTGCGGTTATAGTTTTTG
211 TRIM58 reverse primer CGACACTACGAACAAACGT
229 TWIST1 probe CGCGCTTACCGCTCGACGA
230 TWIST1 forward primer CTACTACTACGCCGCTTAC
231 TWIST1 reverse primer GCGAGGAAGAGTTAGATCG
225 CLEC11A probe CGTCGTCAAAAACCTACGCCACG
226 CLEC11A forward primer GTGGTACGTTCGAGAATTG
227 CLEC11A reverse primer CGTAATAAAAACGCCGCTAA
213 HOXD10 probe ACGCGTCTCTCCCCGCAA
214 HOXD10 forward primer TCCCTAACCCAAACTACG
215 HOXD10 reverse primer TTAGGATATGGTTAGGCGTTGTC
217 OLIG3 probe CACGAAATTAACCGCGTACGC
218 OLIG3 forward primer GCCCAAAATAAAATACACCG
219 OLIG3 reverse primer GTTATTCGGTCGGTTATTTC
161 ACTB probe ACCACCACCCAACACACAATAACAAACACA
162 ACTB forward primer TGGAGGAGGTTTAGTAAGTTTTTTG
163 ACTB reverse primer CCTCCCTTAAAAATTACAAAAACCA
다중 메틸화 특이적 PCR 방법(Multiplex MSP)을 사용했다. PCR 혼합물은 PCR 반응액, 프라이머 혼합물, 프로브 혼합물을 포함하여 단일 시료를 준비하였다. 프라이머 혼합물은 본 출원의 유전자 조합과 내부 참조 유전자 각각에 대한 한 쌍의 프라이머를 포함한다.PCR 반응 시스템은 다음과 같다: 샘플 cfDNA/양성 대조군/음성 대조군 5.00 μL, 멀티플렉스 프라이머 혼합물(100 μM) 3.40 μL, 물 4.10 μL, 2x PCR 반응 혼합물 12.5 μL.
PCR 프로그램은 94℃에서 2분 동안 사전 변성, 94℃에서 30초 동안 변성, 60℃에서 1분 동안 어닐링, 45주기로 설정되었다. 60℃에서 어닐링 및 신장 단계 동안 형광 신호가 수집되었다.
메틸화 수준 = Ctinternal reference gene --Cttarget gene.
본 출원의 유전자 조합의 메틸화 수준에 대해 이진 로지스틱 회귀 분석(Binary logistic regression analysis)을 수행하고 방정식을 피팅하였다. 예를 들어, 예시식의 점수가 0보다 큰 경우, 선별 결과는 양성, 즉 악성 결절이다.
예시적인 피팅 방정식은 다음과 같다: 점수=1.65343 + TRIM58 메틸화 수준Х0.03638 + TWIST1 메틸화 수준Х0.02269 + CLEC11A 메틸화 수준Х0.00536 - HOXD10 메틸화 수준Х0.00435 + OLIG3 메틸화 수준Х0.02293.
ROC에 의해 분석된 바와 같이, 본 출원의 유전자 조합은 90%의 특이도, 52%의 민감도 및 0.726의 AUC를 갖는다.
결과는 대조 혈장과 췌관 선암종 혈장 사이의 본 출원의 검출 부위 조합의 DNA 메틸화 신호의 비교를 보여준다. 선택된 표적 마커는 종양 검출에 대한 민감도가 높다는 것이 입증되었다.
전술한 상세한 설명은 설명 및 예시의 방식으로 제공되며, 첨부된 청구범위의 범위를 제한하려는 의도가 아니다. 본 명세서에 설명된 실시예에 대한 다양한 수정은 당업자에게 명백할 것이며 첨부된 청구범위 및 그 등가물의 범위 내에 유지된다.
<110> SINGLERA GENOMICS (JIANGSU) LTD. SINGLERA GENOMICS (CHINA) LTD. <120> SUBSTANCE AND METHOD FOR TUMOR ASSESSMENT <130> 0266-PA-006 <160> 235 <170> PatentIn version 3.5 <210> 1 <211> 501 <212> DNA <213> Artificial Sequence <220> <223> DMRTA2 <400> 1 agtagggcgc catgaaggcc agaccgcggc tgtgcgccgc cgccgcggag taggccaggc 60 gcagggggct gaggccgagc ggcgcgccca gcgggtaggc gcccgcgtcg gcaccgaagt 120 gactggcgtt gggctgcagc ggcgagaagg ccgagcggct gctcagcgag cccagcgccc 180 caggcgccat ggcgccggcc agcaagggtc tgtggtgcgg aggtgcggcg ggccccgcct 240 gcagcggcgc aggcagccca ggccccccgg cggcggcggc ggcggcggcg gcggcgtcga 300 cgcggctggg ccacgcgtcg tctgcagctg ctgcagcacc cacggcggcc ttatctgggg 360 gcgccgcagg gcccaggccg gccgccaggc ccccacggtg gtggttcagc acctgctcga 420 tggcctgcac cacgtcgccg ccgcagccct gcaacaccag ctccaggacg cctcgccggt 480 ggcctgggaa cacgcgtgtc a 501 <210> 2 <211> 542 <212> DNA <213> Artificial Sequence <220> <223> FOXD3 <400> 2 ccctgccccc catctttcgg gggcactcaa accctcttcc cctgagctcc gtggcagccc 60 ccgaacaccc tcatcgcccg ctgccccctc cccgccgccg ctaccaaccc cgaggaggga 120 tgaccctctc cggcggcggc agcgccagcg acatgtccgg ccagacggtg ctgacggccg 180 aggacgtgga catcgatgtg gtgggcgagg gcgacgacgg gctggaagag aaggacagcg 240 acgcaggttg cgatagcccc gcggggccgc cggagctgcg cctggacgag gcggacgagg 300 tgcccccggc ggcaccccat cacggacagc ctcagccgcc ccaccagcag cccctgacat 360 tgcccaagga ggcggccgga gccggggccg gaccgggggg cgacgtgggc gcgccggagg 420 cggacggctg caagggcggt gttggcggcg aggagggcgg cgcgagcggc ggcgggcctg 480 gcgcgggcag cggttcggcg ggaggcctgg ccccgagcaa gcccaagaac agcctagtga 540 ag 542 <210> 3 <211> 577 <212> DNA <213> Artificial Sequence <220> <223> TBX15 <400> 3 atttgttctg cctgatgaaa gcaaaagctc gaactcccct cagggcgcga ggtgtgagac 60 ccttgggttc catttgcatt tctggtttgt cgttggcggg ttcctgattt gtttttgttt 120 tgttttggtc tgttctgttt tttggggggt gtctttcacc agggccttcc cggttagccc 180 agggtcccca catttctcca ggatgtaatt agagctaaga acagccgcca tccctcaggg 240 ttccgggtcc cgggtttcca gggtcccggg tttccaaggc cccgcgataa ccccgggcgc 300 acgcggcgcg atgcggcgag gcgaggcgag gcggtggggc cagcgcggag ccccaggcgc 360 gagaacagga actcgggctg gcacaccgag gcctcgcagc caagccgcgc ctgacccgtt 420 cgccgttccg gccccgcggc gcctccaagg ccgggccgag gggccgaggg gccgagggcg 480 ggcagacgcg gccacggcct aattctgact tctgaaggtc accgaaactg cgctgttttt 540 ccagagatgg gttgaagaga agagatgcaa tcccagt 577 <210> 4 <211> 501 <212> DNA <213> Artificial Sequence <220> <223> BCAN <400> 4 atccgctgaa cgatgtccta cttcgctcgt ccttgctctc gccgctgctg ccggagccga 60 agcagagaag gcagcgggtc ccgtgaccgt cccgagagcc ccgcgctccc gaccaggggg 120 cgggggcggc cccggggagg gcggggcagg ggcgggggga agaaaggggg ttttgtgctg 180 cgccgggagg gccggcgccc tcttccgaat gtcctgcggc cccagcctct cctcacgctc 240 gcgcagtctc cgccgcagtc tcagctgcag ctgcaggact gagccgtgca cccggaggag 300 acccccggag gaggcgacaa acttcgcagt gccgcgaccc aaccccagcc ctgggtaggt 360 gagtgcctcc gcagccccgc cgcccgccgt ggggtcgggg acagggagaa gggagtgcct 420 gcctggtctg cgccccccgc ctgtcagccc ttgcctcgag gctctggggc acccaactcg 480 tcgactcctg acaccgcagc g 501 <210> 5 <211> 589 <212> DNA <213> Artificial Sequence <220> <223> TRIM58 <400> 5 cttttcaccg ggtgtggctc gtctgagctc ttgaactgaa gccagcggac accacccgtc 60 ggcgcctgct ttcctggggc gtgggctcct ccccctgtgc agaccgcgag gggagacggt 120 gcgggcggcc gggagcgcag ccctccggga ggcgggtcat ggcctgggcg ccgcccgggg 180 agcggctgcg cgaggatgcg cggtgcccgg tgtgcctgga tttcctgcag gagccggtca 240 gcgtggactg cggccacagc ttctgcctca ggtgcatctc cgagttctgc gagaagtcgg 300 acggcgcgca gggcggcgtc tacgcctgtc cgcagtgccg gggccccttc cggccctcgg 360 gctttcgccc caaccggcag ctggcgggcc tggtggagag cgtgcggcgg ctggggttgg 420 gcgcggggcc cggggcgcgg cgatgcgcgc ggcacggcga ggacctgagc cgcttctgcg 480 aggaggacga ggcggcgctg tgctgggtgt gcgacgccgg ccccgagcac aggacgcacc 540 gcacggcgcc gctgcaggag gccgccggca gctaccaggt gaggcgccc 589 <210> 6 <211> 583 <212> DNA <213> Artificial Sequence <220> <223> SIX3 <400> 6 atccaccgtc acactctctc cgagcagcca gctccccgct taacggggaa attgaagcag 60 acagcctttg tctaaacact tcttttgccc agaatatctt aattttccta tttgaatgtt 120 taataaggtt tggggtgcag cagcttcctt ttaattgtga cggtgcggcc gcttgggcgt 180 gatcccttgg ctggggctgc agggggcccg tcctccaggg gcgcagaggg aaggaccagc 240 gtttccaagc cgggctctgg ccgccggcgc gagagcgagg ccaaggtctg ggggcagttc 300 agggggaccc cgaagtcggg acggcccaga aacgctttgc ccacagccac cgccctttcc 360 tttgtgagtt tccccaaagc cgtcggtgcg acccggcgcc gactctcctc ctcttctccc 420 tgcgagggcc cgcgccgccc gggcccagtc ctgggggata gatccctcgg ggcccaacgg 480 ctgggccacc gccggtctcc ggccactgct gcgaggacag gcgctgccta actaatttct 540 cctctaaggg ggctgtgcgt gcgtctcctt cccaactgat gtc 583 <210> 7 <211> 542 <212> DNA <213> Artificial Sequence <220> <223> VAX2 <400> 7 cagaaggtgt cacactctgg gatctgttcc gcagggaggc cacaggtgcc aggagacgcg 60 ggagagactg gctcctgcca agaacatttc tttgcattgt tcagtgcggt tttttatttt 120 tatttttgac tgtttgtttg cctaagagat gacttccctt gccagaaaaa aaaaagtgtt 180 gtaaaaataa aaggaaacgg gattacgatg taaaagacga atagataaac ccggttccgc 240 agatctgcgg cgcgcgcgcc tggcgacctc ggatacattc attgaagttg ccgcgcactc 300 gtacccgggt tcacctcgcc cctcgctcat tcctcccgac caaggcccat ggtcagaggt 360 gtcctcgccc cgcggccgtc agagggcgcg gcctacactc gaatgccggc cgagccctcc 420 acgcgctcgg aacttgggct tcccggtgca gcctccccgc gatcgcaatg cccgctgcct 480 ttcccgagcc cagtccggaa cccgcctctc tcggggacct tgacctcgcg cggacctcgt 540 cg 542 <210> 8 <211> 501 <212> DNA <213> Artificial Sequence <220> <223> EMX1 <400> 8 cagctccggc tctgagcgtc tccagtcagg cgaggcggat aaatccttcg caaaaccctc 60 ttggaaattg ccgccgcttc ctgagccatc agtcccagcg ggtacgttat cgagtagcac 120 aaacagttgg atttttccct caagaaccga gtctggacgc ggagatggag ccaagtgtgg 180 ctgcattttc ggacccggaa atccgttggg cactgaagga cttttcgaac cctgtagcgc 240 tgttgcttcg cggtccatcg tcgccgctgc agacggatgc gctccccggc ggctctacgc 300 cctccagtcc cggccaggcc tctgggctgg gagccgagcc gtctcgggcc ctccggcgcc 360 gcgttttcta gagaaccggg tctcagcgat gctcatttca gccccgtctt aatgcaacaa 420 acgaaacccc acacgaacga aaaggaacat gtctgcgctc tctgcgcagc gcttgggcgg 480 cgcggtcccg gcgcgcgggg a 501 <210> 9 <211> 522 <212> DNA <213> Artificial Sequence <220> <223> LBX2 <400> 9 aggaggagag aggtgaggaa aaggctaagt cagagtccgc gaccttgccg gctctatacc 60 ttcagagggc tgcagagcgc gcgcgtcaag tccgcggaaa gttttactag tcagctcctc 120 cagcgcgcac agcggcgacg ttggacccgg acccgactct ggaagctgcg gcgcagaggg 180 tgctcggggg accatgcgcg gggctaggat gtctgcgatg cttaagagtg tccggggtgt 240 tcggggctcg cgtcccgagt tcatggtcgg ccgggctggg gcggtccggc tgtccgttgc 300 gctaggctcc gcaaacgcct gggccccagt gctcggctcc caatccgggc ccccagcctc 360 ggacccgccc ccggctctgg gcccgagtcc cgtgtgcccc tcctcctgcg cccccacctc 420 tccaccccgg gccgcggtgg atctggagct cctagatgtc cggggagggt atttctacag 480 gctggggcag gcgcggagag cagaagccga ccaaactacc ca 522 <210> 10 <211> 501 <212> DNA <213> Artificial Sequence <220> <223> TLX2 <400> 10 caggtgctgg agttggagcg gcgcttcctg cgccagaagt acctggcctc tgcggagagg 60 gcggcgctgg ccaaggcctt gcgcatgacc gacgcacagg tcaaaacgtg gttccagaac 120 cgacgcacca agtggcggtg aggcgcggcg cgggcgaggg cggactgggg ttcccgagca 180 gggcctggtg agaagcgacg cggcgggcgc cccgctgacc ccgcgtctcc ctcccttagg 240 cgccagacgg cggaggagcg cgaggccgag cggcaccgcg cgggccggct gctcctgcat 300 ctgcagcagg acgcgttgcc acggccgctg cggccgccgc tgcccccgga ccctctctgc 360 ctgcacaact cgtcgctctt cgcgctgcag aacctgcagc cctgggccga ggacaacaaa 420 gtggcttcag tgtccgggct cgcctcggtg gtgtgagcga cgcccgtccg atcggcgtgg 480 agcgccgggc ccggagcggt g 501 <210> 11 <211> 501 <212> DNA <213> Artificial Sequence <220> <223> POU3F3 <400> 11 cggactgtgg cccagcccac agaccagggc ccgaaattga ggtggggggc gtactctgtt 60 tgtcttcccg aaggatgcgg cgcgtggaag gagatgcgct gacttgttcc aacccataac 120 ctttcgctcg ggtccccatg tgcgggcaga agaagtcaga gcggaacagc ctagtgcact 180 ggcagggctc attgtctggg aagacaccga ggtctaggca gctgggactg cggagtggag 240 gcaaggccgg aggcggccgg cggctttgtg gaagtttcgc gccgccaggc cctgcgcgcc 300 gcacggggcg gtggagttct tgggcagccc ccggcgcttg gcccacgcct ccgcttcccg 360 cgtgtgggaa actcgagcac cctacaggca ccagggtaaa ctgcctgtgc ctggcccggt 420 gagggtcgct cccccaggcc ccgtctccgc ccgaggactg caggcctagg cctgcgggga 480 gatcctgaga ccgcggtgtg c 501 <210> 12 <211> 503 <212> DNA <213> Artificial Sequence <220> <223> POU3F3 <400> 12 ggcccgaaat tgaggtgggg ggcgtactct gtttgtcttc ccgaaggatg cggcgcgtgg 60 aaggagatgc gctgacttgt tccaacccat aacctttcgc tcgggtcccc atgtgcgggc 120 agaagaagtc agagcggaac agcctagtgc actggcaggg ctcattgtct gggaagacac 180 cgaggtctag gcagctggga ctgcggagtg gaggcaaggc cggaggcggc cggcggcttt 240 gtggaagttt cgcgccgcca ggccctgcgc gccgcacggg gcggtggagt tcttgggcag 300 cccccggcgc ttggcccacg cctccgcttc ccgcgtgtgg gaaactcgag caccctacag 360 gcaccagggt aaactgcctg tgcctggccc ggtgagggtc gctcccccag gccccgtctc 420 cgcccgagga ctgcaggcct aggcctgcgg ggagatcctg agaccgcggt gtgcgggcgc 480 cggcagcagg gcaaggcagg gac 503 <210> 13 <211> 504 <212> DNA <213> Artificial Sequence <220> <223> TBR1 <400> 13 cttacgcggc ggcgggcgtg aaggcgctgc cgctgcaggc tgcaggctgc actggccgcc 60 cgctcggcta ctacgccgac ccgtcgggct ggggcgcccg cagtcccccg cagtactgcg 120 gcaccaagtc gggctcggtg ctgccctgct ggcccaacag cgccgcggcc gccgcgcgca 180 tggccggcgc caatccctac ctgggcgagg aggccgaggg cctggccgcc gagcgctcgc 240 cgctgccgcc cggcgccgcc gaggacgcca agcccaagga cctgtccgat tccagctgga 300 tcgagacgcc ctcctcgatc aagtccatcg actccagcga ctcggggatt tacgagcagg 360 ccaagcggag gcggatctcg ccggccgaca cgcccgtgtc cgagagttcg tccccgctca 420 agagcgaggt gctggcccag cgggactgcg agaagaactg cgccaaggac attagcggct 480 actatggctt ctactcgcac agct 504 <210> 14 <211> 507 <212> DNA <213> Artificial Sequence <220> <223> EVX2 <400> 14 tgaggcacga gcagggtgca gagccgccgc tggggggcgc gccggccgcc gccgccgagg 60 aggccgcagc cgctgcggct gccgcggctg ccgcggcaga ggccgcgctg ttgagccccg 120 cggcggccgc gggagcctgg tagagaccag ggtggcggaa gctacacagc agctccggcc 180 gagagtaggg gtgcgagagg gcgcggaagg tgtccagtgg ccggatggaa gtagcgaagg 240 gcgacgaagc cgcggccgcc gcgcctgagg ctgcagccgc ggccgccgcc gccgtgacgc 300 ccacgtgcgg gtagtagtgc agcggcacgt gcgagtggaa ggggtagggc aggcttccgg 360 tggcggccgc gtgcgtcatc atgtaggtgt agaagctggg gtcggctggg tgcggccagg 420 acatggccag gcgctgccgc ttgtccttca tgcgccggtt ctggaaccac acctgcgggg 480 agagacgcgc cgcagcctgg gttaggg 507 <210> 15 <211> 501 <212> DNA <213> Artificial Sequence <220> <223> EVX2 -2 <400> 15 tggaagtagc gaagggcgac gaagccgcgg ccgccgcgcc tgaggctgca gccgcggccg 60 ccgccgccgt gacgcccacg tgcgggtagt agtgcagcgg cacgtgcgag tggaaggggt 120 agggcaggct tccggtggcg gccgcgtgcg tcatcatgta ggtgtagaag ctggggtcgg 180 ctgggtgcgg ccaggacatg gccaggcgct gccgcttgtc cttcatgcgc cggttctgga 240 accacacctg cggggagaga cgcgccgcag cctgggttag ggagcgcccc gtgttcccag 300 ctcctgtccc aggacctctg ccccttccgg acctctgaat ggcttggtct acttctctcc 360 gaccaagccc aaccccgagt accctgtggt ctcccagctg ggaaagtgtg gacggcagtg 420 tgtggaccgc cgtgggcaca ccgtcctcaa cgaagagggt cctctccccc gcgtccggct 480 gctgctgctc ctcaggcttt t 501 <210> 16 <211> 581 <212> DNA <213> Artificial Sequence <220> <223> HOXD12 <400> 16 ggccagttgg ccgcgcttcc ccctatctcc tacccgcgcg gcgcgctgcc ctgggccgcc 60 acgcccgcct cctgcgcccc cgcgcagcct gcgggcgcca ctgccttcgg cggcttctcg 120 cagccctacc tggctggctc cgggcctctc ggcctgcagc ccccaacagc caaagacgga 180 cccgaagagc aggctaagtt ctatgcgccc gaagcggccg ctgggccaga ggagcgcggt 240 cgtacccggc cgtccttcgc ccccgagtct agcctggctc ctgcagtggc tgctctcaaa 300 gcggccaagt atgactacgc tggtgtgggt cgtgccacgc cgggctccac gaccctgctc 360 cagggggctc cctgcgcccc tggcttcaag gacgacacca agggcccgct caacttgaac 420 atgacagtgc aggcggcggg cgttgcctct tgcctgcgac cttcactgcc cgacggtaaa 480 cggtgcccat gctccccggg ccggtttggg ccgggatggg aggtggggtt caagggagag 540 tgtaagggga ggtgaaccgc ctgggggcgg gcaatagaca g 581 <210> 17 <211> 501 <212> DNA <213> Artificial Sequence <220> <223> HOXD8 <400> 17 gtcggcagcc tcggcggcgg gggcgagatt ggcgggaggg gggcgcgggg ggggcgcggt 60 aagaggtggc ggcgggcaga gggtgttttt tttcttttcc ctccagagcc ggggtttgta 120 aaccgaggcc agagtgtccc cgtgggccga gcgcactttt ttcttgtccg ggtgcgctca 180 gtcactggtg cctgagagga aacagtggag gcagcggggc aggtcgcctg gggcgtcggc 240 gattatattg cggccgagcc ggggcgcgcc gggaaaggcc gggagggcgg cggcgcgcgg 300 gggctgggcg aggccccgcg acccgcgagg gaggcggcgc gaagccgagg cggcgggcgc 360 aagagccggg catgagcgcc cagtagctga gcgcccgcgg ctgcctggcc tcagaagcga 420 cgcgcgagcg cgggcgggcg gcagcagcga cgtagcccgg cggtcccggc ggcgagagca 480 gccgccccac aggcccccgc g 501 <210> 18 <211> 515 <212> DNA <213> Artificial Sequence <220> <223> HOXD4 <400> 18 gggtggggat gggggggtgg gggaggactc cattttcaga gcagggggaa ggctgtggag 60 gagcggggga tttccaaaat gcttgagggt tccggacctg gtggtgggcc cagaagaagg 120 agcacatttg gggatcccgc aagcctgggg tatgtgggtg tgtttgagga ggtgggtggg 180 agtgagcgtg tgcgccgggg agagggcggg agggaggaag caagcgagct tgggagcgcg 240 cggggagggc cgcgggcctc ggggcgcgcc aggaagtgag cggcggaggc gaggggccta 300 actagtggcc gggcgctgac ctgcctgtcc tgtctgtttt gtctcgcagt gaaccccaac 360 tacaccggtg gggaacccaa gcggtcccga acggcctaca cccggcagca agtcctagaa 420 ctggaaaaag aatttcattt taacaggtat ctgacaaggc gccgtcggat tgaaatcgct 480 cacaccctgt gtctgtcgga gcgccagatc aagat 515 <210> 19 <211> 512 <212> DNA <213> Artificial Sequence <220> <223> HOXD4 - 2 <400> 19 ctggcgctgg cacgcttaat tcttttttcc cacattgcag aatcattccc accagccact 60 cggagagtgg tgggaatctg tcttggttta atatttctaa aatataagtt tcattgtccc 120 ccaggttagc ccagccagga ctcattgcgc agtcctcctc gccttcctgg aggcgccgca 180 ggaagcggga agtcgcggct tggcggttgc tgggcctgtg ggatctgcgg gtcctgccca 240 gacctggagt cgcacagatc acggcgggca gtggctcagc gcctaggcgg ctccaggcct 300 cgaaggacca ggttggggtg ctcagggatc agagagggga ggtcgctctg ggtccgggtc 360 gcctgctacg cgccttttct gtctcagaag tggcggtgac tcggctgctg agtccgcgga 420 acgagccacg gaatggtggt ggtggcgggg ttttctgagg tgactggcca gagctgagag 480 tcgcggcttc cacctttggg ccggagcggg tc 512 <210> 20 <211> 558 <212> DNA <213> Artificial Sequence <220> <223> TOPAZ1 <400> 20 tgggattgat ttttggcccc cgctgcagca agttgggggc tggtgaggag tgtagcggtg 60 actgggggcg gagtgcggac tcgcatccgc tgtaccagga gcccactgcc acctcgggat 120 ttttttttta acttggaatt tccatatgac aaaaaagaaa gaggtttctc ctcaatctaa 180 cggagccatt aacatctatt aataacgccg acagggtaag taacggagcc gcgctcctcg 240 gggtggtcac cgggctgcgt ggtcctcggc cggcctcctg catccgctgc ccctgtgcgc 300 tccgggccgg atgcgcaagg gcggcgcggg gaccaagcct ggctgccggc cgcctactcc 360 tccccttccc taaggtaagg ggtcgttttc acactcacca gagctcctgc gggctgagct 420 cgccccctcc cccgacttct ttgcggggca ttttctcttg ctggtgtatt acgtgtcatt 480 tctcacgggg cattgccggc cgcttttctg caactgtcct ttcggatttg gtgatctggt 540 ccggcacaga ggctctcc 558 <210> 21 <211> 548 <212> DNA <213> Artificial Sequence <220> <223> SHOX2 <400> 21 gagagcaggc cttgcgggag tctggacccg aagggcgaga ctccacaggg ccaaggaaag 60 cggcctctgt cctccgttag tcttggggga gcagacgcaa gaggaggcaa gggcgccgcg 120 agctccccgg atgcactggt cccacaggcc gtgcccgagt ggagcactgc gaatggggcc 180 aagaaatttt ggcctttctc gccggacctg gctgcctccg cgggcctctc cgcctaccgc 240 gctcccgccg cggcccgact cccgcgggtc tccgcgccga acccacctgg ctcctatcgc 300 acgggacatt cccgacccac ccacgccgcg tcactgagcc tctgtaccga tacccggcgc 360 ctccgccagc agggcctgga cgcaccgcct cctttgacct cgggcttccc ccgcgctccg 420 ctgcttgggg cagactggcc ccgagaggga gccaccatct cccctgctcc agggtctcca 480 gggtccgaac ccgtgttggg atctgggtta ggattagggt ttggagcttg gagcctgcct 540 gttaggac 548 <210> 22 <211> 503 <212> DNA <213> Artificial Sequence <220> <223> DRD5 <400> 22 ctccagggat gcgccaagca cccttcggtt ttcccgggga gaattttccc cggcccgggg 60 actagggtct ggcgctgggg cgcccctcgg acctgcggga tcgcccctac actctggcgc 120 gctgagggcg gtgagcgagg gcgccaaggc acaggtgggg cgggagtcga gcgcggaggc 180 tcggggggcg ggacgcgggg cctgggagcg gccagggacc gcggcagcgc ctcagtgcca 240 gcctggcgcc cgcgactgcc tgccccagcc cctcagtggc ggcttgctct cttctctcgc 300 tccgaaccag acacagccgc tgccgctgcc gtccggcgcg ctacagactc ccgagaacag 360 ccctggctgt cagcgagcac cagccgcttc ctgtccccat cgcggagact ggaggggcgc 420 accacggcca tggagccaga ggcgcttcag gaggcaagag aagtccccgc gcgctccgca 480 gcccggcgca gctcatggtg agc 503 <210> 23 <211> 501 <212> DNA <213> Artificial Sequence <220> <223> RPL9 <400> 23 gacccacgcc cacctaggcc tccccgagcc tctgttgcat gccgacgggt ggctgaaccc 60 atcgacggcc gaggccttcc aggcctacgc tgggctgtgc ttccaggagc tgggggacct 120 ggtgaagctc tggatcacca tcaacgagcc taaccggcta agtgacatct acaaccgctc 180 tggcaacgac acctacgggg cggcgcacaa cctgctggtg gcccacgccc tggcctggcg 240 cctctacgac cggcagttca ggccctcaca gcgcggggcc gtgtcgctgt cgctgcacgc 300 ggactgggcg gaacccgcca acccctatgc tgactcgcac tggagggcgg ccgagcgctt 360 cctgcagttc gagatcgcct ggttcgccga gccgctcttc aagaccgggg actaccccgc 420 ggccatgagg gaatacattg cctccaagca ccgacggggg ctttccagct cggccctgcc 480 gcgcctcacc gaggccgaaa g 501 <210> 24 <211> 553 <212> DNA <213> Artificial Sequence <220> <223> RPL9 - 2 <400> 24 tggctgaacc catcgacggc cgaggccttc caggcctacg ctgggctgtg cttccaggag 60 ctgggggacc tggtgaagct ctggatcacc atcaacgagc ctaaccggct aagtgacatc 120 tacaaccgct ctggcaacga cacctacggg gcggcgcaca acctgctggt ggcccacgcc 180 ctggcctggc gcctctacga ccggcagttc aggccctcac agcgcggggc cgtgtcgctg 240 tcgctgcacg cggactgggc ggaacccgcc aacccctatg ctgactcgca ctggagggcg 300 gccgagcgct tcctgcagtt cgagatcgcc tggttcgccg agccgctctt caagaccggg 360 gactaccccg cggccatgag ggaatacatt gcctccaagc accgacgggg gctttccagc 420 tcggccctgc cgcgcctcac cgaggccgaa aggaggctgc tcaagggcac ggtcgacttc 480 tgcgcgctca accacttcac cactaggttc gtgatgcacg agcagctggc cggcagccgc 540 tacgactcgg aca 553 <210> 25 <211> 610 <212> DNA <213> Artificial Sequence <220> <223> HOPX <400> 25 aaaagagaag tcggagttta gacagggttt taaaagtcag ctaaaggctc ccacattgca 60 cctgtggtta acaaccacag gccgtgttgc attctttacc tggcactttt cgggataata 120 caggagcatt taaaaaatag ataagtcaat gaatgcactt agggggacat cggctgccgc 180 tgccgtcagc tgaaatgtta gctatctacc gtcttataaa acgccaggaa aaacctctaa 240 accttagagc cggggaattt tttaaaaaat cggaaccaaa tctccgtggc ttcgtgcagc 300 gtgagttctg cagctcgggg gacgctgcag tgtgatgtgg tggagagagc atgcttcacc 360 gctcctgcca tcctgacagc gccctccctc ccggcctcag cctcctggtt cgccaaaccg 420 gaggactgaa tttatggcta gctggtctct ggggcgcctt ccagctctga cattcccgcc 480 tagaatagat cttcccgaag gtttcgcaga cagaccagag gggaccgagc cgggaaggcg 540 agacagggac aggcgagaga cgctgctccc aactcgcaga gggagaaagc gtgtatcccg 600 ggctgccggg 610 <210> 26 <211> 506 <212> DNA <213> Artificial Sequence <220> <223> SFRP2 <400> 26 gaacttctgc ccttcccgct actggcaccc caagcaggga tgcactggga tgcgtggcag 60 gggcgggatc tcctgggagc gtctcagccc agcagggagt ggggaagcaa gagggaaggc 120 ttaccttcct cggtggctgg caggaggtgg tcgctgctag cgagggggat gcaaaggtcg 180 ttgtcctggg ggaaacggtc gcactcaagc atgtcgggcc aggggaagcc gaaggcggac 240 atgaccgggg cgcagcggtc cttcacctgc acgcagagcg agtggcatgg ctggatggtc 300 tcgtctaggt catcgaggca gacgggggcg aagagcgagc acaggaactt cttggtgtcc 360 gggtggcact gcttcatgac cagcgggatc caagcgccgg cctgctccag cacctccttc 420 atggtctcgt ggcccagcag gttgggcagc cgcatgttct ggtattcgat gccgtggcac 480 agctgcaggt tggcagggat gggctt 506 <210> 27 <211> 510 <212> DNA <213> Artificial Sequence <220> <223> IRX4 <400> 27 attcgagttc ttttgccctt ttcagtctaa gacgtgggct ttctgcaaag cctccccctg 60 ccagcgagct ctcggagcgc ggagccttta gaaattgagg ggtttactgt caaaatgaaa 120 atttcacttc aaattacctt ggctgatgct cgctcgccag gccgggggct cccgccgcag 180 ccttttgaca ggcacatgag ccgcgagctt ccgaacctcg ataatatcat ctcgagcgcg 240 aaagtcaata cggtgacagc gcgcggccgg atacaatcca attacgctcg gctgcccggg 300 cgctcctggg gctcggggtc cggcggccga gggtccccct cagggcccgg tccaggccct 360 gtcgccaggg ttcagggcag gccccaccac gcgggggact ttggtggccc aggggtcccc 420 acgaggccgc agtccgggtc cgcccagccc caggctccta gaggaaagcc gagcctagtg 480 agtccctcca aggccgcccg cccgcaagac 510 <210> 28 <211> 501 <212> DNA <213> Artificial Sequence <220> <223> TBX18 <400> 28 acttgcgtta agttcggctc aggctactgg attgggcagg accagctaac ccaggtcccg 60 aggggcagtg tgtcacagac tgcagcccac tccaacctcg gctcctggag aaggggcgtc 120 gaatctctct tgggcatggg agggaaagac attccgagtt ggctgggcgg agtggcagcc 180 ttgagagtga cgagtgacag caaagcctcg tcctagcaag gccttttacc aacagcgcgg 240 catgcccttt cgaggagagc gccaggccct cgcactttgc aagtcaagag agcaaagaaa 300 gcggggacag ggcgcgtaat cgcaatgtcc ggtcgcgcgt gtgcacgtgt ctgtgtttgc 360 atgtgtgcgt gagcatgtgc acctgctcaa gtgtaaatgt gtctgttggc agttggggtc 420 taagtacctg agaatgtgtg tcttctgttg ctttaggaga ttaaaatgtc ttttcccagt 480 attgagctac attgaggaaa c 501 <210> 29 <211> 555 <212> DNA <213> Artificial Sequence <220> <223> OLIG3 <400> 29 aagtccttgg actcggccga cagccgggcc atgttggctg tggagagagc ggacaggtgc 60 ggcggcggcg gcatctggca gatggtgcag gggcagggca gaccagccca gtgctggaag 120 ccgctgccca gctgcagcgc gggcggcgtg gagggcgcct tgagtagcga gtggggaggc 180 cggatggtgc cgatggcggg aagtgaggcg gcggacagcg gtgacgaggc gttgccagat 240 gagagcgcgc cgcccaagat ggggtgcacc gggtgcacgg agttggccgc gtgcgcgggg 300 tggccggccg agtggcccac ggtcccgcag tgaaaggccg agtggtggcc cccatagatc 360 tcgccaacca gcctcttcat ctcctccagg gagctggtga gcatgaggat gtagtttctg 420 gcgagcagga gtgtggcgat cttggagagc ttgcgcaccg acggcccatg cgcgtagggc 480 atgacttcgc gcagcccgtc catggctagg ttcaggtcgt gcatccgctt gcgttcgcgt 540 ccgttgatct tcagc 555 <210> 30 <211> 501 <212> DNA <213> Artificial Sequence <220> <223> ULBP1 <400> 30 tcaggccagg aggtttctgg aaggaccggt gctgtctccc cgaacatcgt ggtctccccg 60 aacatcgcgg cctctccgaa catcgccctc tctccgagca acgcgatctc cccgaacatc 120 gcggtctccc cgaaaatcgc gatctccccg aacattgcca tctcaccgaa catcgcgatc 180 tcgccgaaca tgcccggctg aaggcactca gttcccctcc gcggctcctt tccgccgggt 240 ctgattcctg cggctgctgc ttgccccgca ggccaggagg cttctggtag caccggcgcg 300 atgcccccga acatcgcgtt ctaccccaac atcgcgatcc ctccgaacat cgtgatcccc 360 cccgaacatc gccgtccccc cgagtaacgc ggtctccccg aacatcgcgg tccccccgaa 420 catcgcggta cccccgaaca tcgccgtctc cccgtacatt gcgatccccc gaaacattgc 480 gatctccccg aacatcgcga t 501 <210> 31 <211> 516 <212> DNA <213> Artificial Sequence <220> <223> HOXA13 <400> 31 ttggccagcc gcgcccggac tcctcagagc tggcgcaaac tccgtcctcc aaaactcggc 60 tctgggaggc ctaagtgact ccgaagccgg cggcagccgc ggcagcggcc gtggtggtgg 120 aagagctctt ttccccgaca gtgccactga tcgctcttca ctggagctgg aaacagcctt 180 cgcggaaagg accggagcat gcgttagaag cagagggagc ttggtgaagg gctcggctgg 240 aaggaggaaa cgccttctcg cagtgcgcgg ccagcccgcg ggggacaccg gcttgctgga 300 ctgcaggggc ccgtgccacc caggaagtga cctgcgggtc actcagccgg ggcgctgggc 360 gagcgcggga cggcccggag aattccgtgc ggctgcgacg ggaaaaggac gaggggtctc 420 tgtacccgac gctgccactg gcccaaagga attttacccg cgagcgccca ccccacccta 480 gcttgatgct tacgcccgca acaaaacagg aaacca 516 <210> 32 <211> 516 <212> DNA <213> Artificial Sequence <220> <223> TBX20 <400> 32 agacttcgaa ggcagccgga gaggagaggg cccaccgagc actacggcgg gtgcgcacgc 60 cccggggcgc tcggcaggac gacagtctgc acagcccgaa ggcggaaacg agcatcaact 120 gcacaaagtc ctggggtcct ggagcatccc ctccgcgtcc ttcctccctc tggggctggg 180 gacagccggg atgtcccagg ctgaggtggc caccagccga gcgcggctgc taggacgctg 240 gcgtggggag cgcggcgcgg aactacggac agtgagccct ggcgctcgct gccctgcgcc 300 ttaatttgct ggcggcggcg atcccggagg cccgcagcca gtcagcgccg tctcacgtca 360 ccgcttcctg attccgccgc cgggggcggg gccgcgggcc gggcgcggag ggcgcgccca 420 gggtgcggcg cccgcgtggc ctgtcgcccc ggctgttcgg taccccagca caggttcagg 480 gaaaagggtg ccaccactag gctgacgcag cagcca 516 <210> 33 <211> 501 <212> DNA <213> Artificial Sequence <220> <223> IKZF1 <400> 33 agcgccggcc gccgcatccc gtgcggggcc gcggcgcgat gctgcgctgg aatgaggaag 60 cgcggcggcg aggggagggc ccgggcgcgg tgcgcgcggg ggtggcggcg gcgcgccgag 120 cgggcccggc gcgggcgagc gggctgcagc cggcggcggc gccagcaggt acggcccgca 180 cccgccgccg ccccggcggc ctttgggggc tgagccggag cccggcgcga ttgcaaagtt 240 ttcgtgcgcg gcccctctgg cccggagttg cggctgagac gcgcgccgcg cgagccgggg 300 gactcggcga cggggcgggg acgggacgac gcaccctctc cgtgtcccgc tctgcgccct 360 tctgcgcgcc ccgctccctg taccggagca gcgatccggg aggcggccga gaggtgcgcg 420 cggggccgag ccggctgcgg ggcaggtcga gcagggaccg ccagcgtgcg tcaccccaaa 480 gtttgcgggg tggcagggcg c 501 <210> 34 <211> 517 <212> DNA <213> Artificial Sequence <220> <223> INSIG1 <400> 34 agagctcccg gagggcttgg ccggccaccg ccgcgcggcg ctgctcgggg actgctactt 60 tgcaaggcgg cggctgcccc tgcggggttc gggttgcagg gtcaagtgtc acgtcctccg 120 caatctccaa tattcctgta atgtatttaa atggacgaat tcattacgcg gggccgtgtg 180 aatggggcga ggccgcgagc gcggcgcgat cagtagcgcc cactaacagt tcgttctgca 240 cggcggagcg cgagaccgcg gacccacgga agccccctca atggtgtttg cgtcctcgcc 300 gccaccggct tggtagggtc ctttagggaa ggaggaagag ttcaggcacc cggacagatc 360 ctaatggtct ttctgatttt tctttccctt cggtccgctt tccccgcgac ctcctccacc 420 ctcagtccgc ctttcaaacg tcgtccgcgg ggatggctgc gcgatggaga aattggtctc 480 gtccagagac gcgcgcacag ccgtccccgc gcacacg 517 <210> 35 <211> 562 <212> DNA <213> Artificial Sequence <220> <223> SOX7 <400> 35 tctcagccac ctgattgatt tctcctctca ctccacccgc acccagtctc cgggtccagg 60 cctccagctc cctcacttct ggctcttctc accctgaatt ttctccttat attttttctt 120 tcttcctccg attggcagtc ccgcttctcc gagtggagtc gctcccgccc tctcgcgtcc 180 ccccctggct gcgctgcgac ctgcgaactc ccccagtttc cctcatctgc acaccctggt 240 gtagaccgac cgtgcgcgcc gggcccacgt gcagcctggg gactgcaggc tgggagctca 300 cggccatctc tcggccgcgc tcaccgcagc tcccctgtca cccggccccc tgtgaggagc 360 tctgttcccg cgctctcata taagcgccgg cacacagtag gcgctcaagg cctgcagaat 420 gagtgagcaa atatagctca gacacctact gaatgaaagt cggcaggttt gactagatcc 480 tggaatttaa aatttactga gcgccaccca tgtgcggggc tccacagagg tgatcctgga 540 aggaggcagc gttgtggggg tg 562 <210> 36 <211> 503 <212> DNA <213> Artificial Sequence <220> <223> EBF2 <400> 36 ctcagtgata accgaagagc tactctgaaa tgcccccctt ttcctggtgg tgcccgccag 60 ccggcagggg aaagcccgag ggacctccca gctccttccc ggatcgcggc ggaggtgtga 120 gcgatgtgtt gattattcat atttttaccg agcgcatact ctgctgcggc cggcgccgcc 180 acatttcaca cgtacactga cgtacccaca tgcacaagcg ctcactcggc cccgcacgca 240 agcagcgccc cgcgcgcccg gggccctcct cggataaggg aggggtgaca aaagtctccc 300 gctcactgct gcctacccac ccccaacccg gctgcctttt cctccaggcc cccacaaaca 360 cccttggctt tcagatccaa ctttcttcct cataatatac tagtcaccgc gactcccgcc 420 tcccggattt gaggatgggg gagactttgg cggcgggggt cagctgcaaa tatggcacca 480 tctagaattt cattccattt agc 503 <210> 37 <211> 701 <212> DNA <213> Artificial Sequence <220> <223> MOS <400> 37 agtattagca tagagaatcc agtaatgtgt cgacaacaag cagatagttc ccaaaatgcc 60 aacctgtttc aacaaagatg aaaacaccaa taaacgaaaa gtagaaaaac ctatgtggac 120 gcatcaacag atgctgaaaa ggcatttcct agaagtcggc agccaaactt ggtaattctt 180 gcgtgtgata aaggcagccg tctgttctgc tcagaagggg tttcctaaca ggaggggccg 240 aatgcaggcg tcacatccac gccgccccag gtcgtacacc taggccgtcc gggctgtccc 300 agagccgcag gccccgcatc atccgcgtcc ttagcgcggg gcgcggagcc cgcagccagg 360 tgcggccgag acccgcgcgc cagggaaagc ggcgcagcgg acgcgggaga aggctggtgg 420 gtacaggttg cctccgggcc ggagcgccca tgcagggcga gctgcgctcc gcacaaaatt 480 gcggtggggg cgccagaccg ccttgctccg cccctgagcg gggcgccccg gcccaacccc 540 ctgagggagg agggtccagg tgccgcagac tcttagcccc tggcccggcg tccgcccggc 600 aggttctggc actcctcgtt ggtaagcccc gttatttcgt gcgcagtgtt tacagaatat 660 aaagttcttc aggaaacgat gttataggag aaacgcctgg a 701 <210> 38 <211> 505 <212> DNA <213> Artificial Sequence <220> <223> MKX <400> 38 tcccccaacg ccggcgaata attttaaagc aaaggaggcg cggccaggtg ggctcccaag 60 ctccgcgcag acccttgggc cagccttggc cgctacccga gcgcctctcc accagacctt 120 ggagggaagt tgggggaagg gcgggagagc accggcgccc agggcgcagg ggccagagcg 180 agcctggcgt tccgccgcag ccggctgaga ctcggcgacg cgggggctgt acctgtggct 240 gcggggccga cggccggctg cagggcggct ggctctcccg cctcgagact aggcgcactc 300 ccatccccgc cgcatgttct ccacgcgggc tccagcgcgc tcaccaccgc caccgccgtc 360 gtctcggctt tatttaccca gcccggcgcg cgccgcccgg gaacaggaat agcgaggcct 420 tctcatgttt cctgactgcc ggtcccagcc ggcgaacatc ctgcgggcgc ggtatccacg 480 ttcccgggcg ggtggagagg aagcg 505 <210> 39 <211> 549 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 <400> 39 atcccagtaa gctctagcac ccgggcgcgg gtaacgggaa gcgcagaacc aaatccccag 60 cgcccaggtc acctccccag acccagcctt gcagggacca gggctttagg gctcacggac 120 ccaacggcca ggtcagaccg cgaaccggga ggagcgcggg ccccacccta aagagggcgc 180 agccgggagc tggggagcgg gtgccgcgct ccagagattg tgtcgtgggc gccgtcctag 240 tggcggggag cgcacctccg agggggcatg agatcggaga aatcccttac gctggcggcg 300 ccgggggagg tccgtgggcc ggagggagag caacaggatg cgggagactt cccggaggcc 360 ggcgggggcg ggggctgctg tagtagcgag cggctggtga tcaatatctc cgggctgcgc 420 tttgagacac aattgcgcac cctgtcgctg tttccggaca cgctgctcgg agaccctggc 480 cggcgagtcc gcttcttcga ccccctgagg aacgagtact tcttcgaccg caaccggccc 540 agcttcgac 549 <210> 40 <211> 506 <212> DNA <213> Artificial Sequence <220> <223> SYT10 <400> 40 ccacgttggc cccatggcgg gagcggaggg cgtaggggaa ggagaggcgc gcgaggaggc 60 tgcggctgcc gcgaggtttg cgccaactct cccgccgcgc gagcgagccg aggcgcgctg 120 gaactagaga cccggcatgg agtgctgagg ggagggggga gccgtaaaaa agccaaagca 180 agccctcgac tcgcaagcac gcccccctcc tctccccagc gcactggtgt ttctggcggg 240 tgcctggcgg cgacgcgtcc aatcgcagcc cggcgcgggc gctaggtgac aggcggcgga 300 gcgcgcagac ccggctcccc gcgtcctctg aagaagggac tcgcgaggga gggagggagg 360 gagggcgggc ggcccggcgc ccctgccgag gccggggatg ctcatcgttg cccagagttg 420 gcccgaggag ccctctccgt tttcccaata cttttccctg catcagtgca gccatccccg 480 ccgcctttgt ctctccaact tttcca 506 <210> 41 <211> 560 <212> DNA <213> Artificial Sequence <220> <223> AGAP2 <400> 41 ggctgcgcgg aagcagcggt gacagcagtg gctggactcg gagttggtgg gagggttagc 60 ggaggaggag agccggcagg cggtcccgga tgcaagtcac tgttgtccaa ggtcttactc 120 ttgcctttcc gaggggacaa cttccctcgg gctccagccc cagccccgac cccaccagag 180 gtcgaagctg tagagccccc tcccccggcg gcggcggcgg tggcggcggc agagaccgaa 240 gctccagtcc cggcgctgct ctttgacccc ttgaccctgg gcttgccctc gctttcgggc 300 catgacaggc ggctacccgc gcccttgccc ccgccggctt tggctccact cgtggtcacg 360 gtcttgcaag gcttgggagc cggcggagga ggcgccacct tgagcctccg gctgccggtg 420 ccagggtgcg gagaggatga gccagggatg ccgccgcccg cccggccttc gggctccggg 480 ccgccccagc tcgggctgct gagcaggggg cgccgggagg aggtgggggc gcccccaggc 540 ttggggtcgg ggctcagtcc 560 <210> 42 <211> 586 <212> DNA <213> Artificial Sequence <220> <223> TBX3 <400> 42 gggttcgaat cgaaaatgtc gacatcttgc taatggtctg caaacttccg ccaattatga 60 ctgacctccc agactcggcc ccaggaggct cgtattaggc agggaggccg ccgtaattct 120 gggatcaaaa gcgggaaggt gcgaactcct ctttgtctct gcgtgcccgg cgcgcccccc 180 tcccggtggg tgataaaccc actctggcgc cggccatgcg ctgggtgatt aatttgcgaa 240 caaacaaaag cggcctggtg gccactgcat tcgggttaaa cattggccag cgtgttccga 300 aggcttgtgc tgggcctggc ctccaggaga acccacgagg ccagcgctcc ccggaccccg 360 gcattaggcg ccagctgccg gctatctgcg gtctttttct ctctgcagac ccctcgatcc 420 tctttccttc ggtctcacac tcaacaaaag acagactaga gacgttgaaa gagcctgccc 480 ttcaacagag tcccagaaaa gggtgactta aggggaggag aagggagaaa gagggcagat 540 tccgggtcag aaaagaccca gataatttct ggcgtctctg aaatat 586 <210> 43 <211> 501 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 <400> 43 ataaagttcg attatttcac ctggcttgtc agtcacctat gcaggcgtct gagcccccgg 60 gtttccagga gccccccgta taaggacccc agggactcct ctccccacgc ggccgggccg 120 cccgcccggc ccccagcccg gagagctgcc accgaccccc tcaacgtccc aagccccagc 180 tctgtcgccc gcgttccttc ctcttcctgg gccacaatct tggctttccc gggccggctt 240 cacgcagttg cgcaggagcc cgcgggggaa gacctctcgt ggggacctcg agcacgacgt 300 gcgaccctaa atccccacat ctcctctgcc gcctcgcagg ccacatgcac cgggagccgg 360 gcggggcagg cgcggcccgc aaggaccccc gcgatggaga cgcaacactg ccgcgactgc 420 acttggggca gccccgccgc gtcccagccg cctcccggca ggaagcgtag gtgtgtgagc 480 cgacccggag cgagccgcgc c 501 <210> 44 <211> 528 <212> DNA <213> Artificial Sequence <220> <223> ZIC2 <400> 44 agactccctc cttgggaacg tcgaactctc tctgccttgg ggagtggggc tcgataaagg 60 gtacctaggt cgcaccctgg caggggagca ctagagggcc gcgaggtccc gggtttcgcc 120 atcctgagac ccccgcgcgg atggcccagg aggggcgcgg cggccctgag tcaaggtggg 180 cgggggcagg tgcttccctc caccgcgttg tcctatgccg gcgcggtccc caccgcccga 240 cctagcccgg cgccggccga gcacggcggc cgcgcttcgc actccttcct cccaccgggt 300 ccgcaggccc ggcttcacga ttcccgggcc ctcgggcatg tgagggactt gagtgaatgc 360 agctccctca actcactccc gcaaaaccac agccaagagg gccttaagtc agagaacccg 420 gcctaggagc ctcccctaga gcctcggcgc gggccccttc cccttcccca catcggtcgg 480 ccgagggagc ctagagccgg tgggagacgg gcagcggcct ctcctgat 528 <210> 45 <211> 515 <212> DNA <213> Artificial Sequence <220> <223> ZIC2 - 2 <400> 45 ggggctcgat aaagggtacc taggtcgcac cctggcaggg gagcactaga gggccgcgag 60 gtcccgggtt tcgccatcct gagacccccg cgcggatggc ccaggagggg cgcggcggcc 120 ctgagtcaag gtgggcgggg gcaggtgctt ccctccaccg cgttgtccta tgccggcgcg 180 gtccccaccg cccgacctag cccggcgccg gccgagcacg gcggccgcgc ttcgcactcc 240 ttcctcccac cgggtccgca ggcccggctt cacgattccc gggccctcgg gcatgtgagg 300 gacttgagtg aatgcagctc cctcaactca ctcccgcaaa accacagcca agagggcctt 360 aagtcagaga acccggccta ggagcctccc ctagagcctc ggcgcgggcc ccttcccctt 420 ccccacatcg gtcggccgag ggagcctaga gccggtggga gacgggcagc ggcctctcct 480 gatcctttcc tgcggtcata caagttccta gggtg 515 <210> 46 <211> 517 <212> DNA <213> Artificial Sequence <220> <223> CLEC14A <400> 46 gcaaagcctc ccaagtcgtc taggcagtta gggagctctg cgcatttgcc agcacggagg 60 tacctcccgg ggcagggaca caacacatcg cccgagagtt tgtcccagcg agcgccgatt 120 tcgtccgcga tgcaagtaac tgagatcggg agctgtcccc ggcagagcgc actcacctcg 180 gtcccaggtg gactgaagtc cagagcggcg ctgtgcagct ggaagggcgc gcgatagctc 240 aagttagagg cggccccggg gcgcggcgca ggacacaaga cctcaaactg gtacttgcac 300 aggtagccgt tggcgcgcag gtggcatcgc atctccttcc agcctgcggg ctcgacccca 360 ccggtggcct ggagtaccgc gcatctccgc gcggtgcagg agcgttgggg ctcctccacc 420 cactgcagcg tgtcgctttc gagaccgccg gggtcggagg acagccagga gaaaccccgc 480 aaaggctcgt tctccagggt gcagtgggaa cgcctgc 517 <210> 47 <211> 507 <212> DNA <213> Artificial Sequence <220> <223> CLEC14A - 2 <400> 47 ccaggtggac tgaagtccag agcggcgctg tgcagctgga agggcgcgcg atagctcaag 60 ttagaggcgg ccccggggcg cggcgcagga cacaagacct caaactggta cttgcacagg 120 tagccgttgg cgcgcaggtg gcatcgcatc tccttccagc ctgcgggctc gaccccaccg 180 gtggcctgga gtaccgcgca tctccgcgcg gtgcaggagc gttggggctc ctccacccac 240 tgcagcgtgt cgctttcgag accgccgggg tcggaggaca gccaggagaa accccgcaaa 300 ggctcgttct ccagggtgca gtgggaacgc ctgcgctcca gtgcgaccca gaacagcagg 360 tctttggagc cccctccggg ccctgggcct gcccgcagga gcgcgagcac agcgcgcagc 420 tcggcgcccg cacgcacggt gctgagcgcc ccacctcgca ggatgcaggc ctcctcggcc 480 gcctgccgct tcatggtagc gtggtgc 507 <210> 48 <211> 517 <212> DNA <213> Artificial Sequence <220> <223> OTX2 <400> 48 agacttcttg ggagtttgca gagcgacccg tcgcccgcgc ccggcgctgg cagggacctt 60 cggatggttc ttactgggcc gatccatggc acaggctggg cctcggcgaa cccctcggcc 120 cccgcccggc cccgagccac gacacctcat tgtcctggag cctgggaagg gggtgcgcga 180 gcgcgcgggc gagccctgcc tctccccgcc agagaacagc tgaggggccg cggtcccagc 240 gggaggattc cggtccctgg cccggccgcg gccttgggcg gagcaggggc cactagctgc 300 cacttctgcc cgccccaggt gcgcgcggag ggctacgtgg ggcgggccgc gacccggcaa 360 agtcatgttg aaaaaacact cttcacgttc gctcggcctg gtgaccaggg tcggggacca 420 cgacaaccgg gggttgggag gctgcgtaat tacaacccag ggtggtttgg attttggggg 480 gtggtggata tttaaaaaca aaaaggagat ctggaag 517 <210> 49 <211> 550 <212> DNA <213> Artificial Sequence <220> <223> C14orf39 <400> 49 aaccacagcc cgtgcgcctc ccgcagtggg agttcgccgg ccgactccca ccctcacagc 60 ctcctgtcct ggcttcccct cgcccgaggc tgcaacaccg catccccccc atcccccgcc 120 gcgccctcag cctcgggccg caccaaccca ggggataagg cgactccggt cgctctgagg 180 ggcagggcca gccagccccc tcccacccac gcacacgctc cccctcagag ccgccggccc 240 agagaaaaac cgccacatgc agctcccttc cacacgcacc taaacagctc ctctggaccc 300 gaacgcccac accctccctc cctggggtcc caaactccac tcaggacgcc acagcggatc 360 ctaactacaa acggtccccg gagccctggg ctggactcgc tcagccccgc ccccacgccc 420 ctggtaccag ccctgagaga ccccgcggag cacgccgcgg gagccgcaga tcgcgctgaa 480 gagcagcgag atcgcgctct ggacgagacc tgcgcggctg caaccgctcc ttcttcgcgg 540 gtggaagcgc 550 <210> 50 <211> 537 <212> DNA <213> Artificial Sequence <220> <223> BNC1 <400> 50 gaggaactcc ggcaaagcca ggcggcggcg gggctccggg tctgggcggc ggctccggag 60 gagcagcggg agaccccgca gcggcctcct ccttctccgc ccgcggcccc cagcctcgcc 120 gccgccgccc ggctcccagc acggaaccga cggggcgctc ccgagacggg cgagccacgc 180 gctcgcaggt cccaaggcca ggctgggcgg gactgttaag ggagctcgaa gtcgggggcc 240 gggggcttcc cgtcccggcg cttcccatgc aaacccctga aggaagcggc aggcgcagcc 300 gcgggctccg cagcccaggc ccacttcctg tcactccagg aaaacctcgg agcggcggac 360 gcggctcggc ccggcttcca gcccagagcc caagcgcctt agccccgtcc cagcgctttc 420 tgaaagacgg gccacctcgc gcggagccgc gacaaggact ccagggtccg cagtgaagct 480 ggtcaaatct gccccgcaca cggtcaacgc tcggtctgtg tcccggaagc tttcgga 537 <210> 51 <211> 592 <212> DNA <213> Artificial Sequence <220> <223> AHSP <400> 51 ggatttcgat gaaatggtcc ctgaagttgt gctccttctg ggactccatc cttcagctct 60 ccaatctcaa cagcctgtat tctgttggga tggggtaaga ccggtgagcg acggtcaaac 120 gtctgtccca cgtggtaagg cgggaaccgc tgctgcctgt actgggggcg atactggggg 180 cggcgcagcc gattccgggc cccagagaac tgcctatcag tggtaggggg gtcaaatcct 240 tcactgctgc cgctcccttc ttcctcctcc tcccagcgta atcccgggga gggccatggc 300 gccttccata gtagccacgt ctgtaacggc gccaatcagc gcgtaacgac tgccctccac 360 aggaactcca ccccggccag tcacactggc tgcttctgca cccttctctc cttaaaccac 420 atcaaactct acagtttctc catctcctac actgcgcaga tatttctgtg ggttattctt 480 cttgatggca gtctgatgta taaatagatc ttctttggtg tcatttcgat ttataaatcc 540 atatccattt ctgacgttga accatttgac agtgccaagg actttggtgg cg 592 <210> 52 <211> 701 <212> DNA <213> Artificial Sequence <220> <223> ZFHX3 <400> 52 tctattgtat gtacgtgttg cagtcctttc atttgccaca acatatggat tccataaatg 60 cagacatgcc gaagtgcatc tgtctgggta gttaacatga tctaaacatc cctcttcgtt 120 ccgctaactc cggctcttct tcgggctcct cggcagcgct ccgggccagc cggcccgtgc 180 cccaggcttg cagcgcccgg cagcctcgtc cttttgtggt ctctgcacgg gatccaaggt 240 gccgcgcgga ggaggcgggc tgctcgcagt gccggggtca gaggcgccgc caccggcggc 300 ctctgcgcgc gcggggagga aagggttaag ctgcccgagc ccggggaagg ggctgctctc 360 atcctggagc gaggtgcagc caccggcagc tgtgatttag gggtcaagtc cgagatcacc 420 tttctcctgc ctctggaaat ggcagaagat gagataggga gggagaaact agagagtggc 480 agccaggcgc agcacgtggg ctccatccat ccgacacccc catcgccccg gtccactccc 540 tgacccccag acaaatcgga cagttccctt ttctggtaga gatgcggggt gcgcttcttc 600 tgagcgtccg gaatcgctcc atccaaggct ctgccctaag gttaagccac tgtgccctga 660 gcctcaacca ccagatctca aaagtttgct ctcaatgcgc c 701 <210> 53 <211> 531 <212> DNA <213> Artificial Sequence <220> <223> LHX1 <400> 53 aggtcggggc gggcttcgtt ggaagcgggt ggcagcgcgg gggggcacgc ctcgctctct 60 gtaagccact ggagagttgg ggcgagtagg gagaaggctg ggagtaaatc aaggggaggc 120 ggcgagaccg aggacccaat tcacggccct gaataacggg ggtagctggt aaggggcagc 180 tcccgggctt gcgcccagcc tcctccctgc acccaggccc gcgagggctc cccgcgatcc 240 gcgagttccc cgcgtggcct tcctcagccc gccgaggtcg cgtcttccct ccctttcggt 300 cccgccggcc cccggccggg ccctgacgtc ctgcgccctc cccgccgctc cgcagattac 360 cagagcgagt actacgggcc cgggggcaac tacgacttct tcccgcaagg ccccccgtcc 420 tcgcaggccc agacaccagt ggacctaccc ttcgtgccgt catctgggcc gtccgggacg 480 cccctgggtg gcctggagca cccgctgccg ggccaccacc cgtcgagcga g 531 <210> 54 <211> 554 <212> DNA <213> Artificial Sequence <220> <223> TIMP2 <400> 54 tcactggctc tacagactgc cacgggtaaa cagcttagac cagatgactc aggctgaaag 60 catatgaacc cttcctgcag ggaggccgcc cggatgcaac agtggtttca cccctgagcc 120 gggcagcctt ggcagacctt gcttcacgtg ggctgaaatg gcagtgtctc tcctctttgt 180 ggccaggttt tgcctcctct ttgactcgga agcatctcct atcctgcaag gacagtttga 240 gcagggcccc cgggccctcc ttccaagagg cttctgcagc tgtggacccc caagagttta 300 tgccgctgag ctctgctgtc tctccccacc tgctccccac ctgtctgccc ccacacctgc 360 gactctggct ctcctggatc ctcctgtaga ctggttccta taagcacaag gaggaacatg 420 cgagatgctg ggattggatg ctctgggcct ggggctggtg tttcctcatg cccgggctat 480 ttccttttgg ccctgggcat gcagtcatgt gcttcctttc atgggcgggt tggggaccag 540 ggccagcgag caga 554 <210> 55 <211> 594 <212> DNA <213> Artificial Sequence <220> <223> ZNF750 <400> 55 ggtgcccgtc tgtgtgtgct cctcccagca gccatcgctc aaccttgctc tcaggaagcc 60 cccaggcgag tgttggcagg aatcctgcca ggcgggaggt cgctcctcca gagcgtggtc 120 cctgaagccg ccagcctccc tggcctcgcc ccttgctggt ggtgtgtgtg gtgtggccgt 180 gggtgcactt tgctgggtct tcctgggaca ctgaagtctc ctgtgtctcc agccctgaga 240 actcggagcc cgggtgcttt tgggaaggac ggggcaccag ctggtgacac atgggaaggg 300 aggtgtggtt gtcaccttgc ccaggtaacc tgctctgcct ggtcggtgcg cctaaggggg 360 gcagggtgtt tggggaggac atgagaggcc tcctggaagc acttcatcct gttgaagttc 420 acattttgac cttttcagca gcccttgctc tgggcctgtg cccggccctg ggactcggcc 480 tggagagcct attgacaccg tgccatgggt gcgggcaggg cgccctccct ggagggcggc 540 acgtggtgcc agttggtgac catgagctgc ctcactcctg aggaagagtg ttcg 594 <210> 56 <211> 506 <212> DNA <213> Artificial Sequence <220> <223> SIM2 <400> 56 ccgctgcggg gatttctccc ccagcctttt ctttttaaca gagggcaaag gggcgacggc 60 gagagcacag atggcggctg cggagccggg gaggcggcgg ggagacgcgc gggactcgtg 120 gggagggctg gcagggtgca ggggttccgc gtgacctgcc cggctcccag gcatcgggct 180 gggcgctgca gtttaccgat ttgctttcgt ccctcgtcca ggtttaggag acgcgtgggg 240 acagccgagc cgcgccgggc ccctggacgg cgtcgccaag gagctgggat cgcacttgct 300 gcaggtagag cggcctcgcc gggggaggag cgcagccgcc gcaggctccc ttcccacccc 360 gccaccccag cctccaggcg tcccttcccc aggagcgcca ggcagatcca gaggctgccg 420 ggggctgggg atggggtggt ccccactgcg gagggatgga cgcttagcat gtcggatgcg 480 gcctgcggcc aaccctaccc taaccc 506 <210> 57 <211> 523 <212> DNA <213> Artificial Sequence <220> <223> SIX3 - 2 <400> 57 taatttatgg aatccaccgt cacactctct ccgagcagcc agctccccgc ttaacgggga 60 aattgaagca gacagccttt gtctaaacac ttcttttgcc cagaatatct taattttcct 120 atttgaatgt ttaataaggt ttggggtgca gcagcttcct tttaattgtg acggtgcggc 180 cgcttgggcg tgatcccttg gctggggctg cagggggccc gtcctccagg ggcgcagagg 240 gaaggaccag cgtttccaag ccgggctctg gccgccggcg cgagagcgag gccaaggtct 300 gggggcagtt cagggggacc ccgaagtcgg gacggcccag aaacgctttg cccacagcca 360 ccgccctttc ctttgtgagt ttccccaaag ccgtcggtgc gacccggcgc cgactctcct 420 cctcttctcc ctgcgagggc ccgcgccgcc cgggcccagt cctgggggat agatccctcg 480 gggcccaacg gctgggccac cgccggtctc cggccactgc tgc 523 <210> 58 <211> 518 <212> DNA <213> Artificial Sequence <220> <223> TLX2 - 2 <400> 58 aagccgcgca cgtccttctc ccgctcacag gtgctggagt tggagcggcg cttcctgcgc 60 cagaagtacc tggcctctgc ggagagggcg gcgctggcca aggccttgcg catgaccgac 120 gcacaggtca aaacgtggtt ccagaaccga cgcaccaagt ggcggtgagg cgcggcgcgg 180 gcgagggcgg actggggttc ccgagcaggg cctggtgaga agcgacgcgg cgggcgcccc 240 gctgaccccg cgtctccctc ccttaggcgc cagacggcgg aggagcgcga ggccgagcgg 300 caccgcgcgg gccggctgct cctgcatctg cagcaggacg cgttgccacg gccgctgcgg 360 ccgccgctgc ccccggaccc tctctgcctg cacaactcgt cgctcttcgc gctgcagaac 420 ctgcagccct gggccgagga caacaaagtg gcttcagtgt ccgggctcgc ctcggtggtg 480 tgagcgacgc ccgtccgatc ggcgtggagc gccgggcc 518 <210> 59 <211> 526 <212> DNA <213> Artificial Sequence <220> <223> CILP2 <400> 59 ttcaagatct aagtgagagg ccggtcagac agaggcaaga gctcagcgca ccgggatgga 60 ccaggtcagg ccctgggcgg cagaactggg gtcgcgggga acccagtctg ccctgcacct 120 gtttcaggcc gctggctcgg gtcgtgggcg cgctcggcta gccggtgccc accgggggag 180 ggggctgaga cagcaagtaa ggcctttgca cgcatgcatg ggggcctaca ggccgccgcc 240 ctggtcccag cgcgtgcggt gcccgcagag gccagcgagt ggacgtcctg gttcaacgtg 300 gaccaccccg gaggcgacgg cgacttcgag agcctggctg ccatccgctt ctactacggg 360 ccagcgcgcg tgtgcccgcg accgctggcg ctggaagcgc gcaccacgga ctgggccctg 420 ccgtccgccg tcggcgagcg cgtgcacttg aaccccacgc gcggcttctg gtgcctcaac 480 cgcgagcaac cgcgtggccg ccgctgctcc aactaccacg tgcgct 526 <210> 60 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> ARHGEF16 (-60,185), PRDM16 (+325,030) <400> 60 ttccgcagcg ccgcggatca gaggagggag gcctggcgcc ctcggagctg cggtgggggg 60 catcccagga gatctggctc ggtgtgtaga gaagggagtc cgggcggcgt cctgggagtg 120 tctgtggcct gcagagaggg gatggggttg gggtgtggat cccgggaggc tcggaggcgc 180 tcggaggctc tcggaggggg 200 <210> 61 <211> 311 <212> DNA <213> Artificial Sequence <220> <223> NFIA (-27,057) <400> 61 aagatgcttt ctactaatgg agaactttac cccgggtctt gcaacccact aaacttggcg 60 tcccatgcca cactgggcgt cccaggcctg cctgccctcg acggggcggt ctctctgccg 120 gcccctggta aaacagttac tgcacctggg gcttcgcaga gtgcaaggag gaaagaagtg 180 gggcattact ttccaacaag caatgacctc agcctgccag cgcctacctt gttctggaaa 240 cacctaatct ctgcttcctc tataaagttt aactgcagct tgcctccaat cccaaattgc 300 aaacactagc a 311 <210> 62 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> ST6GALNAC5 (+70) <400> 62 ttaggaccca gcaggcggcg gcaggcggca gttgtgtaga tcgctgagag actacgaggg 60 tccggttcag ttttaattct gtctctaatc tctgcaacag ccgcgcttcc cgggtcccgc 120 ggctcccgcg cgcgatctgc cgcggccggc tgctgggcaa aaatcagagc cgcctccgcc 180 ccattaccca tcatggaaac 200 <210> 63 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> PRRX1 (-2,486) <400> 63 ggaagggaaa aacggcccac atcgaactgg atgccggatg gaaacctctc tgcgctatta 60 gactgcgtcc agtacagcag atggcacgag cacgtgcggc gctcagctta ggctctcgga 120 ggcagctgag ttggaaatcc cgacggaaag cacccacaag ctcccactct gcgctggccc 180 acccgcgtgc acgcccaccc 200 <210> 64 <211> 365 <212> DNA <213> Artificial Sequence <220> <223> LHX4 (+3,243), ACBD6 (+269,425) <400> 64 gcccccggtg cgggcctcgt cgctccgaca gccctacagc tgtccctacg gcccgcaccg 60 acagctcgtc cccgccacct ccctccgggc tgtagggacg tcgagatccg aatcctcaca 120 gcgcctgacc cggggccgtg ttgggtacgg gtacggcgag agccttccga gccgcctcca 180 aaactctccc cgcggacctc agcagtccct ccacgcgtcg gggccctgct ggccggccat 240 gccctctgag gagacgcgga aaagagcgag gcatatagga aggtggggcg ttttatccgc 300 ctcggttttg acccatctgc catgtagtct ccccaggcac cgagggaaag gacgacggaa 360 gcccg 365 <210> 65 <211> 225 <212> DNA <213> Artificial Sequence <220> <223> FMN2 (-93,837), CHRM3 (+368,970) <400> 65 ggggagcgga acagggaacg ggctggtggc ggccccaagc gggagggacg gaccgacacg 60 cggccccctg gcggccttgc gactcgccga cctgcggaac ctcgtcgccg ccctcacagc 120 cccgcggcca ccgccgaccc gggccggtcc ccggggcgtc gcgggtgtta aagggcgagt 180 ctacgcggat gtcacggtcg ccgcgggcaa ggaccgcgag gttgc 225 <210> 66 <211> 511 <212> DNA <213> Artificial Sequence <220> <223> FAM150B (-180,056), TMEM18 (+209,087) <400> 66 gaaaccaggg cggaggagcc gcgaggggca ggacgaggct gcatgggcca gcgagggggt 60 cgacaccgag ccagagtgag cgcggggcct ggggcgcaga gcccgcccag ggagccggga 120 gacgccgcgc aagctccccg gacaaacgca atgaccgagg acgcgcgggc gaggccgtcc 180 agggagccct ggtccctcag ctgcaccgga ctgagccgcg accgctcagc acgcgctgct 240 tataaatcag gggtgcgctt cccaagcccc gggtgaggtc ccctacgtcg gcacagcctt 300 aggagctgca aagcagcgcg cgcctccggg gctcctgcgc gccccttgaa ccccgcctcc 360 cgcatcctcc tgcaacagcc tggagctccc tgtgcaggac gcagcggggg gcggggggcg 420 gtcttaggag gctgcggggc gcactcccac ctcctgcctc cccgagaccc ccagcgcctt 480 ctccagggtt tagagcggag gtgaaggggc c 511 <210> 67 <211> 365 <212> DNA <213> Artificial Sequence <220> <223> FAM150B (-181,455), TMEM18 (+207,688) <400> 67 gtgtgcacat tggggagcct ccgcatgggt gagttcaatg ctctgttctt cgtgctgaag 60 gtggaactca tatgcaatgg cgtttatttt tcccctgacg actataaatt ttccctgata 120 atctggggcc agagtccact ggtgcagcag gtgggatgcg ggcggcggat ggagtccctg 180 agctggggag gactgtgcag ctccctcggt gacgctgagc ccgtctgggc attcatgcga 240 tacgcagcgc tctttactgc gggtcccatc tacaataatg tttatcccgc aggtgtttaa 300 ttctcatagc acagctaggc tagcagagtt tttaaggtaa attaaccaga atagacatga 360 tcatg 365 <210> 68 <211> 276 <212> DNA <213> Artificial Sequence <220> <223> SIX3 (-12,826), CAMKMT (+566,973) <400> 68 aacgcggccg aaggtttcgg agccaggctt cccgggcgtc aggggctagg gacgggtccc 60 cggagctggg gaagatgagg ggccgagagg ccgtggaggc ggaggacgcg ggcaagccac 120 ggcccggctg ggagcttcgg gaagcgccgc gcccgggacg cggtctccgg gcggggcgaa 180 gcgcagggaa ggcggcgagg gggtccccac acccgcacgg ggcaccgggt ttgtccatgt 240 gggtgacact gccttcaagg cccaggcccg atgggg 276 <210> 69 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> OTX1 (+8,100), WDPCP (+529,896) <400> 69 cacactgtga agcggggttc ggagaacgac ccctcccgcg ttccgcgccc agcggggtcg 60 cagggctgcg agcccggctg tagcaaagct ttctcggccg cgtcctccct ccggattcgg 120 taggccaggc tcgggcgcgc ccttcccaca ccaacaaacc atctttcccg actcagcaga 180 ggcccacagg ggcgcagccg 200 <210> 70 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> OTX1 (+8,317), WDPCP (+529,679) <400> 70 gcccagcggc gccgccctgg tacgccaggc ctgaaggcag ggccggcccg cgccacgcag 60 ggtctccctt aggcggcgcc ttagggtgaa atgcggggcc aagcctgacc tgccggggtg 120 ccccgtggca tctctggtgc ggaccccgca cgtgccgggg agaactggca ggcggccagg 180 gcgaggaggc ttccagcttg 200 <210> 71 <211> 225 <212> DNA <213> Artificial Sequence <220> <223> CYP26B1 (+3,846), DYSF (+677,489) <400> 71 acgaggtggt gctcgcccat gaggatcttg cgcacgttct ccgcgccggt cacgcgtatc 60 agcggccgcc ccaacaaatg cgtcttgaac acgttgccat acttctccct ccgcgacgac 120 tggaagccag aaccctgcgg gagccacacc cgggtctctc tcagggtgca cttctgcaga 180 gggcccgcga gggaggggcg gcggacccca acccggggta cagtc 225 <210> 72 <211> 415 <212> DNA <213> Artificial Sequence <220> <223> HOXD1 (-10,037), HOXD4 (+27,320) <400> 72 tttctctgtg tgtgtctagg gttgggggca ggagaggtta gttctattaa gagttcatca 60 atcacccggt gtgcactttt cgctcgacag cggttcctcc tacttcagag caagtctggg 120 ccagctggga tccgaccaga aatcgcaagc ggaggagacg cagtagcgca ggctgagcgc 180 taactgaagg cgcgacctga gcccggcgcc tgctggggag ctgcgcagcc aggacagcgg 240 tcggcagcac agggcctggg cgcagggccc gccgtcacca cctcacgtcg gaagccagca 300 ctgctgcccg ccagccctgc cgcctgccct cggacttccc agggcgccca gggtcctccc 360 aacgcgcctg cacccacacc cgcccctgag ccacagtgac cttgcattcc ccgcc 415 <210> 73 <211> 230 <212> DNA <213> Artificial Sequence <220> <223> UBE2F (-10,627), RAMP1 (+96,783) <400> 73 gtccaaggac cgagctggga gtgggggcgg agccaagaag gggcgcccct gcgcccacaa 60 gccgcagcgc ccaggaatcc cctgggcgcc tccgcgtccc ccgcgggctg tcccggcagg 120 caggcagccc accccagggc tcccctcgtg gaaggacacc cctgctgacc ctggccctgg 180 ttctggcggt gtctccactc agccctcgga gggacgccca cctcccgcgg 230 <210> 74 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> AMT (+554) <400> 74 tcacctgcag catatgagac acgtcaaaga gcgagcagtg ctggcgtgtg tgcaggtgcg 60 agtcagtgtg actgtcccgg tactgcactg gcagactcca acccgcaaac gccaccattt 120 tcccgccgtg ggccaggtgg aagtcataga gcggtgtcct gcggagcacc tcctgtgggc 180 ggctgggctt agtgccacca 200 <210> 75 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> PLSCR5 (-785,959), ZIC4 (+12,109) <400> 75 tccgcactga cttgcgatgt cgaccggtct gcccagacca cccccacctg gctgtcgggc 60 ctctcggtcc taagacgagg ggttggcgcg gtagggtccg cacaggccaa atgggatccg 120 aggtgtctac cgcaaccacg cccttgagcg ctgcggcttc gggaagaaaa cagctgctgc 180 tgtcaggcca ggcctggctc 200 <210> 76 <211> 351 <212> DNA <213> Artificial Sequence <220> <223> PEX5L (-371) <400> 76 gagggcggcc ccgggcggtg cgcgctcccc gagcgcgtcc tcggggctgc gcgcgcgcgg 60 cggcaaggcg aggtgccggc aggcggtggt cgcgctggtg tacaacgccc gcagcagcgc 120 ggcgttcagg tgcggcgtcg gcgggcaggg cgattctagc ggagaggatg gccggccgga 180 agaaaggcgg gaagacatgc atcgtctctc cgggggccat ccaccgcggc tgagcctgtt 240 atcctacaga cattataggc tgagtgcagg ggttgccgaa gagtttactt cggttctgat 300 tcagctctcg aaagttacgt ccgtatcacc cgttaaataa agactccccg c 351 <210> 77 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> ETV5 (-146,916), DGKG (+106,209) <400> 77 aaactaatgt ttcttcctcc ttctgtgatc ttccttcttt ctgttttgag cagcttctat 60 cacctgtgtc ctctgcggat gaactgcata aagctctccg ccaaagccta cttctccctc 120 atggtggaga gggagccgtg tgagtagtcc ggtaccgcag ccatccaccc tctgcagatc 180 agcttttcct tccttggctc 200 <210> 78 <211> 207 <212> DNA <213> Artificial Sequence <220> <223> FGF12 (+617) <400> 78 gggaggcagt gctaaaattt gaggaggctg cagtatcgaa aacccggcgc tcacaaggtt 60 agtcaaagtc tgggcagtgg cgacaaaatg tgtgaaaatc cagatgtaaa cttccccaac 120 ctctggcggc cggggggcgg ggcggggcgg tcccaggccc tcttgcgaag tagacgtttg 180 caccccaaac ttgcacccca aggcgat 207 <210> 79 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> FGFRL1 (+12,106), RNF212 (+91,441) <400> 79 tgtttgctgg gccagtgctc agggctttgg tgcatgtggg cagctgaggc ctgggtcagg 60 ggcactgcac ctcggcccct ctgctcatct tgggcaggtg acccaggtgg agctcaggcc 120 cgaggtctgt gctgggccgt gggtcccctt ttgaccgccc ccccggctcc ggaccccaag 180 cccctcctcg ctgactgttc 200 <210> 80 <211> 241 <212> DNA <213> Artificial Sequence <220> <223> DOK7 (-17,061), HGFAC (+4,363) <400> 80 gcacaagaag aggacgttcc tgcggccacg tatcatcggc ggctcctcct cgctgcccgg 60 ctcgcacccc tggctggccg ccatctacat cggggacagc ttctgcgccg ggagcctggt 120 ccacacctgc tgggtggtgt cggccgccca ctgcttctcc cacaggtgca cctcctctgg 180 gccccagtca cctgccctga ggccccacac accatccagc gtcactatgc gcctgtcccc 240 a 241 <210> 81 <211> 306 <212> DNA <213> Artificial Sequence <220> <223> EVC (-2,765), EVC2 (+135) <400> 81 ccttacctgc gtgctgctct cgggccccgc cccgctccgc cccggaggga tcctcaggcc 60 gggcccagac ctaggagcca cctggggatc ccggggtggc tgcgcgccga gggggcgcca 120 gcggggacgt gagctggcgc cgagacagcc tcggcccccc agcgccaggg ccactgccag 180 gagacccccg gccagcaccc acgtggggcg cccccgggag cccgaggggt ccatcgcctg 240 tcgggacccg ctacctcaaa gcggcgggtg ccgccgagtc gctggagctt ccggacccca 300 ggcccg 306 <210> 82 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> HMX1 (+13,601), CPZ (+265,555) <400> 82 ccaagccggt cgaggccccc gtccatttgg gggaaatgga ttttcgcgat ttaagaaaca 60 aacccaaatc aaatgagcga ggcccggatg tgctgacgct gcggttacgc gcgcggagct 120 ggagccccga gagcgctcta ggaaaggcgc agcggcgacc gcgggagggg gtgagaagcc 180 gaggcagaga ggtccggaga 200 <210> 83 <211> 282 <212> DNA <213> Artificial Sequence <220> <223> IRX1 (+533) <400> 83 cgcccgggag ggagagacta cgggtggacc tggtccggaa gaggaactag aaaggtccgg 60 gggcaggttc ccggtggccg aggccgcggc ccccggggac gcaagagggc tgggaggccg 120 ggcgggtgac ggctgggcca tctcggcctg ggaaagcgga aggcccgggc cagggagcgg 180 gtagcgagtg aattcagaga ggccgcagaa gcaggcccgt ggagcggtgc ccgcgctgga 240 ggtcgggggc aaactcgcct ggctcggcca gggcgcccgg gc 282 <210> 84 <211> 214 <212> DNA <213> Artificial Sequence <220> <223> IRX1 (+3,659) <400> 84 acgaggagat cgacctggaa agcatcgaca ttgacaagat cgacgagcac gatggcgacc 60 agagcaacga ggatgacgag gacaaggccg aggctccgca cgcgcccgca gccccttctg 120 ctcttgcccg ggaccaaggc tcgccgctgg cagcagccga cgttctcaag ccccaggact 180 cgcccttggg cctggcaaag gaggccccag agcc 214 <210> 85 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> GDNF (-4,347) <400> 85 ccggggtggg ggaggggagg cgcggggccc cgggagggag gggtcgggag gcgtcggctg 60 ggcctggcgg tgggggagga gaggagagca gcgaggaggc cctggagttc ccgaggcggg 120 gggccggggt gcgagtgggc gacgcgaggc gcccctccct gggctgcagg gagagcgctg 180 agagcgcgga gacgccgcgg 200 <210> 86 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> AGGF1 (-76,519), CRHBP (+1,153) <400> 86 gctcgcggac atctcgggga aggggctggc cggaaccgcc aggggcgcgg tccccttagc 60 taaggatcgg tccgcggagg cgcgccagga gcgggagagg gtggcgcgcc cggggcgcag 120 gaacccagcg cagcctaggc tggaagtcgg ggcgctgggc actacagagc ccgggaatgg 180 ggcgcgcgga gagcggccgc 200 <210> 87 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> PITX1 (+5,529), CATSPER3 (+60,863) <400> 87 cggcgcggtg agctggggct tgcgagccgg ggccccgcgt gcgtcctccg cgcccgcgcc 60 cgcgcccttc cccgctccgg ccgccggccc gcgtggtgcg gcggggcggt cagctgttgt 120 actggcacgc gttgaggccc gaggccgggc cctgcaggcc gccgtagcca aacgacgagt 180 gctgtttgga cttgagccgc 200 <210> 88 <211> 377 <212> DNA <213> Artificial Sequence <220> <223> NEUROG1 (+837) <400> 88 atctattgcc tgctgactag gggaggggga aagtaacagt gtctacaaag ggcctagtgg 60 taaggaatga aacagggcgt tgtgtggagc aagtctttgg gcaggcttgg gaaggagaaa 120 acagggtcgc cggggcggta ggtgaagtct tcggaggcgg ctgggctact ggggtcagag 180 agcggggagg cggcggcggc acctgagccc caggactccg cgtcgctggc ggggcttggg 240 ggaccgggca ggcaggggac gcactgcggc ggcaggaggc gctcccgggc accgcctccg 300 ggcagccctt gatccgccag gcgcagtgtc tcggccagag cccagatgta gttgtaggcg 360 aagcgcagcg tctcgat 377 <210> 89 <211> 203 <212> DNA <213> Artificial Sequence <220> <223> NPM1 (-72,025), TLX3 (+6,339) <400> 89 aggcgtctgc aaggaggggc gagtctgccc ggtccgggca gggagtgagg ccacagtcag 60 ttctccctag gaggccgcgc agcgggtagg gtatgggact gggggacgca acggggacct 120 ggccgaatca gagccctcag cagagaacgc cgaaaactct ggggccggcc gctcgcttcc 180 cgctagtggg aatggtttcc ggt 203 <210> 90 <211> 364 <212> DNA <213> Artificial Sequence <220> <223> NKX2-5 (+2,624), BNIP1 (+88,291) <400> 90 ccacgcgggt cccttcccta ccaggctcgg ataccatgca gcgtggacac tcccgagttg 60 ctctgcggaa tcccggggct ctgaaccgca ttcaagtccc cgacgccgaa gttcacgaag 120 ttgttgttgg cggcggcagt ggccggctgc gctggggaag gcccggcggg gtaagcggca 180 gtgcagctgt agccagggct gcaggccgcg ccgccgtaac ccggataggc ggggtaggcg 240 ttataaccgt agggattgag gcccacgccg taggcaggcg cgtagggcgc cgagtcccct 300 aggcatggct tgccatcgcg caccagcact ggcaccgcga tcctgcgggc aggcggcggc 360 ggcg 364 <210> 91 <211> 396 <212> DNA <213> Artificial Sequence <220> <223> PROP1 (+11,614), B4GALT7 (+384,528) <400> 91 agagctcgtc ccacgacgga gcaggtccct ttgcatcccg cggggccgcc aggtgcaatt 60 ttcgctgggc cgacggcgcg gagatgggcc agagtccggc catccagaag tgcctggagc 120 gcacagcaag gccctgccct cggctccgtg aaggtgaggg ggtaaagtcg gcccggagtc 180 cccgggggtg caggaggggc cccgcgggtt ccagcagacc ctcgacggaa cgttccaggc 240 aggcgagatc tcgcacagaa tctgcccttt taaaggctcg gctttgtcct cgttaaactt 300 gcgtctggca acgcgaccgc tgcggctccc gagcaagatt agagggtttc cgctcgcagg 360 ggcgcgcccg gggaccgcgc ctccccgcct ggtctc 396 <210> 92 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> IRF4 (-200) <400> 92 tcgcacctcg cccttcgcgg gaaacggccc cagtgacagt ccccgaagcg gcgcgcgccc 60 ggctggaggt gcgctctccg ggcgcggcgc gcggagggtc gccaagggcg cgggaacccc 120 accccggccg cggcagcccc cagccttcac gccggccctg aggctcgccc gcccggccgg 180 ccccggctct cggcttgcaa 200 <210> 93 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> FOXF2 (-11,028), FOXQ1 (+66,366) <400> 93 tggcgcggcc ggggcctgga gaagcagcgc tgagtccgac accgcccacc aggcccctct 60 tggagaacta gacaggcgac agcactcagg accccggctg cggccggcgc cgcggcagcc 120 acgcgctcca gcccgcgtgc acctgcttcg ctccgccgcg ctcccggctt aagccggcgg 180 ctccggggtc ctgccccgac 200 <210> 94 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> FOXC1 (+14,713), GMDS (+620,532) <400> 94 tggggcgcga ggccccagga ctcggggacc cctctacctc ggcggcagcg tgcgaccctc 60 tttctaacgc ggccgtggat gtttcttccc gggccgcagc caagcgcggt tcttcctggg 120 cggtggcttt gggcttttcg tacccacagt caagtcagtt cacgtcgcct cccgcacaca 180 cgcgttcata aaacgaaact 200 <210> 95 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> MOCS1 (-413,413), LRFN2 (+246,336) <400> 95 tggtggtggg gcggatactc cagcatcccc ctttttgggc agaaagtttc ctgcttgctt 60 gtcttgcttc ccttgccagc cagggaatgg gtcaggggca gggtctctat ccagcctgca 120 tcctggcaag gagccaacat tccataaatc tatgtttgat aaattagtga aagagacgat 180 accatgcaaa gataacacac 200 <210> 96 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> POU3F2 (+9,136), FBXL4 (+104,086) <400> 96 tgggaaggcg accaagggca gcagcagggg ctcctgcggg gcgcaggtct gtgctggcgc 60 cgggcctggc ctctgcaggc tcggcggagc ctcccgattg ctcccgccgc acccgcccgc 120 ggccactcac ccggccccgc ggccagcccg ggcggggtcg cacgcaaaca aggatgcttc 180 tatttactcg cctctgcctg 200 <210> 97 <211> 239 <212> DNA <213> Artificial Sequence <220> <223> CCR6 (+8,741), GPR31 (+26,819) <400> 97 ccgtccctcc ctttttggcc cccgctgctc ttcccatcgt catcaactca gcctccacgt 60 gatggggagg tcactccctc ccatccggtc ccagccccac tcacctggga acccgtgccg 120 ctggccccac cttggcctag catccgtcca accctgcagc gaccgctccc cacagcccct 180 gctcccttgt tctccagagc cgcgcccctg ctgcaggcct ccccctcgct gtccccaag 239 <210> 98 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> TBX20 (-3,712) <400> 98 cagcgcgcgg ctccgtgccc cgtggggagc gcgcggcgcg gccttggatt tcaccgcgag 60 tcgggagggc gggtctgagc cttgcctccc aggatccttc cgacgaacac cccgcgggtt 120 ttagtttatc gagccaaagt ggtcccggag aagcgctccc tcgcagccaa gctgcaagaa 180 gtggccggga acctacaggc 200 <210> 99 <211> 316 <212> DNA <213> Artificial Sequence <220> <223> TBX20 (-7,495), HERPUD2 (+433,492) <400> 99 gctgctcgga gccttagttt ccctagttgt gaagagggag ggtgtgacca tggcccggag 60 ctctccgaaa ggctgtgcgg attgctcggt ggcgggatgt ggagcgcgtc ttctatgatg 120 ccaggtgctg gccaagcgct cgatgcaggc tgctccagtt aggtcgatgc gatggcggga 180 agcactttcc tctgcaatgg agagacgccg acaccccgag cccgaaggct tgcaaggcgc 240 gctctcgcca ctggggtcgg ggatccgtgg gttctctatc ccgcttaccc actccatcct 300 tagcagctgt cgtcgg 316 <210> 100 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> VIPR2 (+544) <400> 100 ggaccgagag gcatctgcgg ccaacgccaa ccccgatctc cccgtgaaac gcgcagcccg 60 cgcaggcgcc cgcagctccc agctcccggg acggccccga acgagctcat cgttgacgcg 120 tccaggaaga aacgatcccg tttccagcaa accccggacg gtggggcgcg gggaagggcg 180 caggcagcct cccaacccga 200 <210> 101 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> LZTS1 (-214,206) <400> 101 cacttgcgga gagctcggaa cactccgccg agaatgactt ttggagccat ttggcagaga 60 ttagggaaaa gaataagtgg acacgctcca gttatgaaga aaagacatat ggggatttag 120 attatgaaca gacggaagag gaagaatgag gaatcattct ttggagataa agactctccg 180 gaacagaagc gatgctgaaa 200 <210> 102 <211> 283 <212> DNA <213> Artificial Sequence <220> <223> NKX2-6 (-54) <400> 102 gcgaagccgc ggggcagctc cgctcgcgct ccagtcgcag gatgtccttg accgagaagg 60 gggtggaggt gacggggctc agcagcatcc cgaaggcgga tggggcgggg ccgaggaggt 120 ccgggtgagg agcggcaccc tgaacttccc gtcttgtcgc tgcaggcccc gcagacagac 180 ccaagctctg ggacagacgc ccagcgtccc agacagcgcc ttcctctggg ccatgctggt 240 aggcccgggt ccagggccgg gtgacgagac cgtagccccc cat 283 <210> 103 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> NKX2-6 (-40) <400> 103 ctccagtcgc aggatgtcct tgaccgagaa gggggtggag gtgacggggc tcagcagcat 60 cccgaaggcg gatggggcgg ggccgaggag gtccgggtga ggagcggcac cctgaacttc 120 ccgtcttgtc gctgcaggcc ccgcagacag acccaagctc tgggacagac gcccagcgtc 180 ccagacagcg ccttcctctg 200 <210> 104 <211> 238 <212> DNA <213> Artificial Sequence <220> <223> PENK (+36) <400> 104 gcattcggcc cgcacggtcg ccaggagccc ggggccgagc aacagcagcc aagtgcaaag 60 tgtcaggaac cgcgccatgg actgcgagga gagagggacg cgtgcttcga gcctgcctgg 120 gcgcagaacg gggtccctcg gcaggaccct cgccgcgaca gcctcagcag gggatcgtcg 180 agcaaaagcc cgcaggaatg ctcctttctg gggccccgcc ctcccggccg acagcttt 238 <210> 105 <211> 265 <212> DNA <213> Artificial Sequence <220> <223> PRDM14 (-99) <400> 105 ccgcggggca tcgacaggtc gagggtaggg aattgacccg gcccacgcag atccccgcgt 60 cgtcttctcc ccgcccaccg cagccattgg ccgactctcg actcgccctc tgtcccctgg 120 ggtcgctcac ttaactcatc agttttccaa accctccctg ggaccctagt ggcgagcact 180 cgccgctggc cttctagggc aggcagtatt gccgctccag gcgtgcggag tcggggagaa 240 aaaaaccgaa cacgtgtgct accca 265 <210> 106 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> VPS13B (-38,563), OSR2 (+30,261) <400> 106 gggagtccgc ccttccctgc gccttcggga ccggcaggag gcgctgcgcg ggcgaattaa 60 aagaaaagga aaagctcgta gtggaggtgt taccgcatcc tgcctttgga cgctactctt 120 agttgagtga cccgattcgg accttagggg cgttagggtc tcctccaccg cctccctccc 180 ctgttaaaag tgtgtgtgtg 200 <210> 107 <211> 450 <212> DNA <213> Artificial Sequence <220> <223> NEK6 (-241,823), LHX2 (+4,530) <400> 107 gaggcagggc ggcgagggtc ccaagagaaa gggctggctg tggcccgggg cgccgagctc 60 ggcctggagt gcggcctgac ctcgtgaaat gtcccaaggg cggcaggctt ggggaactcg 120 ggcttgggga actcaggaaa gcaaaggctg cggttccttt tgctcggccc gatcctcctt 180 taaagacagg tctcagtttt cccggacttt ttcctccgag tttcctggcg cctgctgggg 240 tgagggccgt gaccctcgga agcgagcccc ccgggcgggg acgagaccgg agcaggcctg 300 gcctcgcgcc ggggtggggt ggggtggggt gaggtggggg gcttggttcg gatttccggc 360 atctttgaac cccaggccat tcccggagaa gctctgcccc ctcccgcgcc cctccctgct 420 caggacagct gcagaggttc tgagttccgg 450 <210> 108 <211> 363 <212> DNA <213> Artificial Sequence <220> <223> DDIT4 (+35,651), DNAJB12 (+45,578) <400> 108 tgattacagt ccggagccat gatgggctcc cagttgccac cttttccaag aagctgactt 60 ttgaggaatc cgcctggcca cgggaatcac accatgtttg cactgccctc agctgttgat 120 tacaccctca tccgcgcaac cggcatccag gaagaacact ttcttcctca cagggtgtct 180 cctctcctgt tttcatgttt atggcatcag gtggtttgca gagtgctcca cacccagaca 240 tgtgcgtcca gtgaggtcag ctgagaaaac aacagcttgc ccaccaccct gctcccccct 300 cattctggga gctacaggct ggggccacgg tcacccctgg gcacacgccc ccacccccac 360 ctt 363 <210> 109 <211> 327 <212> DNA <213> Artificial Sequence <220> <223> CRTAC1 (-215) <400> 109 cggcgagggc gggcgccccc cgcgccccgc cactgcgtcg cgtaaccttc aggcggcagc 60 gaggcctggc gaggagggga gagggcgcct ggctgggcgc tgggggcccc aggccggagg 120 gaagcgaggg tccctcggga ggcagcgcag ggaaggaacg cgaaggggga ggggagggcg 180 gcgagcccca ggaccccgcg gccacccctg cgcgcaggac cgagggtgga ggcgggagcg 240 gctgcactgc cttcccattt ccccccagga tagcgatctg gcgtcgccgg gccgggccaa 300 agcggccgag cgagccgcgc tgatggc 327 <210> 110 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> PAX2 (-8,064), HIF1AN (+201,788) <400> 110 gagctgcgga gctgggcagg agacagggct gtgtttggga aaaggaaacc gcacttcgag 60 gcggctccgc agagcagagc tgcagagtct tccgccctcc cagccgcctt ctccctttgc 120 ctctttctct tttcaccgcc ccctccctca tctcttcggt agccacgttt ggccggggca 180 caactccctg gaggccctgc 200 <210> 111 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> ELOVL3 (+478) <400> 111 ggtggcattg aatgcccaca atgattttct tacagagcag agttatggga ctcccttgta 60 ctggcttcac actacctttg tccgaggtgc aggtagtatg tggcacctca aagagattag 120 agctgaaagc aagcaagcag aaataagagg atgagggaga acgtggaaat atacagaagt 180 caaagagagc gtgtagtgag 200 <210> 112 <211> 204 <212> DNA <213> Artificial Sequence <220> <223> INA (-228) <400> 112 cgacagagct gtgtggtttc cggatgggaa acctcagtcg tttaggcacc cctccgctcg 60 agtcacttcc gaagcagtcg attcttgggg agaagcgctg cggaaagggg cgactccgat 120 gcagatggcc ctgtcccggc gccccaggtc gtcgcgcgcg cagctgcggt agtcactgcg 180 cctccccgcc cccactcctg gatg 204 <210> 113 <211> 280 <212> DNA <213> Artificial Sequence <220> <223> HMX2 (-10,758), HMX3 (+1,402) <400> 113 gaagcggcgc caggcgcggc cggggcgagc gtaggggcgg cggcggccac tccgggcgca 60 gaagactgga agaagggcgc tgaaagtcca gagaagaagc cggcgtgccg caagaagaag 120 acgcgcacag tcttctcgcg cagccaggtc ttccagctcg agtccacctt cgacatgaag 180 cgctatctga gcagctcgga gcgagccggc ctggccgcgt ccctgcacct caccgagacg 240 caggtcaaga tctggttcca gaaccgccgc aacaagtgga 280 <210> 114 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> HMX2 (-2,034) <400> 114 atatttacag ttcaggaagg ttcgaccaac tttccctgcc tgcccccagc tttcttcccc 60 agcggggtgg ctggcactgc tccccgagtt agctggccag ttcccctcgg ggctgccttg 120 accctggctc cggaggcagc gcctagctca ggatgtctgc gagaagcgga tggttagtga 180 gaatccgacg attctttcgc 200 <210> 115 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> MKI67 (-160,359) <400> 115 cgtagttgtc tcctggctcc tggggtccgc ggagctctag atgtacctgc agctcctccc 60 gagtcctgca agccaccctt gtccctcttc tcccgctcac cccccggccc ccccatctct 120 tttgctattc cggggaaggc cacgcagggt gcaacccgga cgcgcccccg ggggaagccc 180 gcgacgcagc agccacaccc 200 <210> 116 <211> 214 <212> DNA <213> Artificial Sequence <220> <223> DPYSL4 (+15,897), STK32C (+105,143) <400> 116 cctgccgtgg tcataagtca gggccgagtg gcgctggagg acgggaagat gtttgtcacc 60 ccgggggcgg gccgcttcgt ccctcggaaa acattcccgg actttgtcta caagaggatc 120 aaagctcgca acagggtagg gcggcacccg caagggtgtt gtgcaggtag gcaggtgggc 180 gctgagttct aggcccagaa cgcacccctg gtca 214 <210> 117 <211> 314 <212> DNA <213> Artificial Sequence <220> <223> INS (+296), INS-IGF2 (+301) <400> 117 gcggccaggg gcagcaatgg gcagttggct caccctgcag gtcctctgcc tcccggcggg 60 tcttgggtgt gtagaagaag cctcgttccc cgcacactag gtagagagct tccaccaggt 120 gtgagccgca caggtgttgg ttcacaaagg ctgcggctgg gtcaggtccc cagagggcca 180 gcagcgccag caggggcagg aggcgcatcc acagggccat ggcagaagga cagtgatctg 240 ggagacaggc agggctgagg caggctgaag gccaggtgcc ctgccttggg gcccctgggc 300 tcacccccac atgc 314 <210> 118 <211> 319 <212> DNA <213> Artificial Sequence <220> <223> ASCL2 (-310) <400> 118 ccagggtctc agccaatcgt gggccacccg tttggccaat cgcgcagggc gcggctccac 60 gcccggcccc attgaggaag cgcgtacgcg tggcgcgtgg ctcacgggga gcatcgctaa 120 caaagctggg ttcctgctgg gccccgccct gctcctcgcc cccgcgactg ggctgggcgc 180 gctgtcccct agcgcagcta tgtcccgagc gcgcccccac ctgtgcgtta atctactggg 240 aatgggggtg gactgcgcct tacctggggc ggggtggggc ttaaggagtg gtcgagactg 300 aggcggggtg ggaggttca 319 <210> 119 <211> 330 <212> DNA <213> Artificial Sequence <220> <223> PAX6 (-52) <400> 119 ccggttccca cacttctcac cgccgctcgg caggggaagt ggcagatctg acagccgcgt 60 tctacgcgag gacctgcccc agagtttaaa tgtcaatgat aagaaaagag ggtgctcagg 120 caggcgctaa ctttccttaa tatccacgcc agcgccgtcc tcattggctg cccggcccgc 180 gtgacgtcat ggcggctaga gttgggcaca gctctgcgcc gactagtttt ccggccgggc 240 gggagcctgc ttctccccac ccagggtccg gccggctcca acccctgctt tggccttcct 300 tggcccggcc tgtgactgct ctagcccggc 330 <210> 120 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> RELT (+12,570), FAM168A (+209,349) <400> 120 tgggtgttgg ttgcaaccct gtcatcacgg acacaggccg ccacacgcgc ttccttcccc 60 tgctgatgcc tcggggcacc tggcagttta aggaagggga aggaagccct tcctcctctg 120 ggaagcctcc cagcctgcag agccttcttc ctgccttcct gcctgtgctg ccccgtgagg 180 ccggctccca ggcagggcag 200 <210> 121 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> OPCML (-258) <400> 121 acgagacgcg gggacgcgcg gacgccacgc tcagcggccg cccccggcct ccgcgccgcc 60 ttcctcccgg gagcagcccc gacgcgcgcg ggcccggacc gccggggttg tcatggcagc 120 agctccatcc ctgaccgcca ctttctcccg gtgccgcctc ggagcgagcg ggctggcggg 180 cggcgcggac tgcgcgctca 200 <210> 122 <211> 344 <212> DNA <213> Artificial Sequence <220> <223> ACVR1B (-33,666), ACVRL1 (+10,617) <400> 122 ccatcagccc cacacggact cgcggcgcat tataaacact gtaatctggt gtcagccccg 60 gcactgatta aaggcccatt agacacattc aggcctctgt gcagcactga ttagggcgtg 120 agcggcacag gggccggcct ggaagctggc catggggaga acagctggcg aaggctctat 180 cgaggttgcg gcctgtgtgg ccatggcccc cagcctcagg ctgggaaaca ggatggggca 240 cggggctgtc tgcggctcca ccggcattgt tttcagaaag ctcctactaa aaactgtgaa 300 cttgggatac caagaggagg gggtcagtgc tggctgcagg agtc 344 <210> 123 <211> 311 <212> DNA <213> Artificial Sequence <220> <223> AVPR1A (+529) <400> 123 ctcgatcatg gagaagacga agtactgcgg cgtgctcagc acgaagctca gcacccaggc 60 ggccgcgatc atgaggcgcg agcggcgcgc gggctgttgc agagtcttga gcgggtggca 120 caccgcgatg tagcggtcgg ctgtcatgac taccagcatg taggccgacg caaacatgcc 180 gaacacctgc aggtgcttca ccacgcggca cagccagtcg gggccgcgga agcggtaggt 240 gatgtcccag cacatttgcg gcagcacctg gaagaatgcc acggccaggt cggccaggct 300 gaggtgtcgg a 311 <210> 124 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> LHX5 (+7,670), SDSL (+42,165) <400> 124 accgggcagg gacaaaccag cggacagagc agagcgcgaa atggttgaga ccgggaagcg 60 acctggccgg gggaaactgg atccgggccg cggcaggagc gactggtggg ttgggccggg 120 cggggcggcc ttggcgccct aaactcggtc cctgcgccct accaacccag tccaagtcct 180 tcgcctcgcc aagtacggcc 200 <210> 125 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> RAB20 (+27,350), COL4A2 (+227,116) <400> 125 tgtttctctg gggaagcctg gctgccttat tcacgtggac tgctcacttg cttccctggg 60 atggaggctg tctgcaaagc tgaggctctc cagagaggcc tgtacagctc ccccattttc 120 aggctgtccc ctgaggccga gcccctacaa agaggtgctg ccaccgtgat gtacgagtgt 180 gccggtcaag ggtgccgacc 200 <210> 126 <211> 295 <212> DNA <213> Artificial Sequence <220> <223> CARKD (+9,535), CARS2 (+80,961) <400> 126 cctggctggg tgtaatccga gctagtacgt ttctcatgca cgtcaccagg gctgagtaat 60 gagcgctgga cgcctgtgtc tggcgggtgg gcagcgatgc cggagcgatc cctgagtcgg 120 cctcttgtgc tccttcatca gggcgcagac ttgtcccacg tgttctgtgc cagtgcggcc 180 gcacctgtga ttaaggccta cagcccggag ctgatcgtcc acccagttct gtgagtcgct 240 ctgcgccggc ttctcgtagg ttctctttcc ctcctgcatc atttggggtt ttggc 295 <210> 127 <211> 212 <212> DNA <213> Artificial Sequence <220> <223> SOX1 (-10,416), TEX29 (+738,482) <400> 127 gctggccggt aaaggctctc gggagagggg cgcggtgtct ccacggtgac tttccgtgaa 60 ggaggatggg gtgtctccgc agctttgggg ccccaggaaa gaacaggtgg gtagatgtgg 120 tggccacggc tagcggactc gccgcggggc acatttgtca ttttcttatc tgtgcgttca 180 ctcctccccc atcctcggct tttgggattg gc 212 <210> 128 <211> 213 <212> DNA <213> Artificial Sequence <220> <223> SPACA7 (-271,785), SOX1 (+36,935) <400> 128 ggcgctgggc tgtgcgtttg cacaaatctg tgttccggcg ggccggtgtc aaccctagtg 60 gggacacggg agaaagagca cgccagtagg ccacgcggcg cgtgggcagt gcgcaacttc 120 tgtcggcgtc caggctgtac ggccacgttt cagccggtgc ccccaggcca tggacaccca 180 gctccagggt cgctctgcgc cctttctccc cag 213 <210> 129 <211> 235 <212> DNA <213> Artificial Sequence <220> <223> SPACA7 (-270,565), SOX1 (+38,155) <400> 129 ggacccggag cagcctgggt ggagcgcggc ctcgggaggc cctgggtgca tcgcggcggg 60 gcctgggggg gcccaggcgc cggaggagcc gtcggtgccg gaatgcagcg tgtttcactt 120 gggagaaacg ttgccctcgg tcccttgcct ccctcctgtt gtctcggttt ttctggcttc 180 gtccttcgtc ccacccaccc gttcccacct caggtccctc ccccaggatc ccctc 235 <210> 130 <211> 266 <212> DNA <213> Artificial Sequence <220> <223> SFTA3 (-3,697) <400> 130 cgtggtgcgc caggtccgga gactggcctg cgctgcctgg ctggtggccc gggtgtgcgc 60 caaggccggc gccaccgctg cccacggaga tggccgctgc cgccgcctgc gcggcctgcg 120 cctggtgctg cgcctgctgc tgcgcgtggc cttgtaggct ggcggcgccc ggcgcggggg 180 cacccgcctg gcacggtttg ccgtctttca ccaggaccgg caccgccacg cgtcgcggcg 240 actgctgctg agcctgttgc tgctgc 266 <210> 131 <211> 287 <212> DNA <213> Artificial Sequence <220> <223> SIX6 (+1,140), SIX1 (+139,371) <400> 131 cgagcggctg cagccaagaa caggtcggta cctagaggcc tccgcgcttt gagcgcaccg 60 gggaggaggc gggtggaggc acctctggcg cccttaccca gtccctggcg actccaattc 120 agcaggagtt gggagcgcgg tctgtcttgg gttaagagcc ctgcgttctg ggctcctggc 180 cgggagttcc cttgccggct ctgcttcccc acccgctggc tccccacgcc tgcgggcagc 240 tgcagcagct ggtcccggtc accaaaccaa ggcttcactg ggacgga 287 <210> 132 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> INF2 (-53,425), TMEM179 (-30,565) <400> 132 cccgggaagc agaagacggc tcctggcaca tctcctgggt gcatctgtgg attgctgggg 60 cccccagcag ctctcccaat ccccagaaac ccctcctgga tctgctgtat ccacctggag 120 cctcttggtg cacagcggca cacacaatac ctccactctc caccccgaag gatgcccact 180 gcagcggggt cctcatccac 200 <210> 133 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> CRIP2 (-5,544), MTA1 (+47,596) <400> 133 aagtgctggg cctgccagtg tggatgtgcc tggagcccct tcgccaggcg gctttcactg 60 acggtgctgg ccagggcagc agggccggtt tggcgacctg gaggtggata tgggtagtgg 120 ctgcccagcc cagccaaccc tgtccccttg gggcattctc tcgaggctgc tgggtgtcct 180 ggcaggcacg tcctgtgggg 200 <210> 134 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> PIAS1 (-232,067), SKOR1 (+2,408) <400> 134 gagttggaac gcaggaggga aaggggacca tacccggtag cccgagggaa aaacgaggcg 60 agaggggaga aggcgacccc gcgctgctac ccgcggaaga tttatggcgc ctcccgggtt 120 ccaaggacag gctgcgttcg tcgctgctgc caccgccggt agtcgccgtg gccgctgcgc 180 cccctgccca ggcggcccgt 200 <210> 135 <211> 298 <212> DNA <213> Artificial Sequence <220> <223> PIAS1 (-224,987), SKOR1 (+9,488) <400> 135 cccgctcaag tccagcgggc gcaccaacct ttgccactcc gtcggctttc cctcttggcc 60 gcggggtagg gctgggcgtc tttgggccgc cgcagggcgc caccctaatc gcctgtcatt 120 tctcggccgt cgcaggtgtt cgcgcccgag agggatgagc acgtgaagag cgcggcggtg 180 gcgctggggc ccgcggcctc ctacgtctgc acccccgagg cccacggtaa cgcctgtcgc 240 ggccgctggc cactgtaatg ggggaaccgc agacagaggg ccggggtcaa ggaaggcc 298 <210> 136 <211> 393 <212> DNA <213> Artificial Sequence <220> <223> PIAS1 (-224,397), SKOR1 (+10,078) <400> 136 gtttggccgc ggggtcccct ttggctaggc cggatcgggg cggaggatgg gggcacatgg 60 ccgcgcgctt gggtacccca gaagcgccag ggtagctgag gcccatcgcg gggtggtggg 120 ggccgccctg cacttgcgcg ccttaccagg ttcctcacag aggaggggtt gggggcagcg 180 gaaaatcggg caggtcgagg cagccgaacc ccggacgatg tccccccacc caccccgaag 240 gtcgcagcct gggccgcgtt ctcagcagga gtcgggcgga cagacccggc ggccacgcgc 300 gctcgcggtg ccccagtatc tgcgcgcgat gtaggtcgct cgtccctggt gggctcggct 360 gctcgcctag ctcttttcca aggggctggg gcg 393 <210> 137 <211> 624 <212> DNA <213> Artificial Sequence <220> <223> ISL2 (+6,367), SCAPER (+562,244) <400> 137 ttatgcgggc gagggcgcgc cccgctcccg gaaccagcct tggcctggcg cctgccgagc 60 cccgagcccc actctcgctc ggcgccgcgg gccctcccgg cgcttccttc cccagcggtc 120 cgcggccctg ggtgaggctc gaagccccgc gcgctgcccc tggccctgca gcacagcagt 180 gaggccaacc ccggccagag cgggcggccg tgacgggccg tgccccgcgc tgtccccgga 240 gtggatgcgc gacgtgatca atccgcggca tttattaatt ccacagtcta gacagaggcg 300 ggggccgggc ggcggctgct tatctgcgtt tggcatcacc tgcaagcgat acaccgaggg 360 gccgcaacga gcccccgcta ggagcgcggc tgccgggaaa ataagtccac ccagaaccag 420 tctggcgtgt ccttggttta ttttctttcc agaccgaagt ggagggggtc gggggtggcc 480 cgggtgggag ggagctggga atggcccctg gatatgccgt gcccaggtca cttggtgtga 540 catttcaaac ccctgcgact tgttttcttg aaaactggct ttagtgatcg caggaaataa 600 ccgagagata ctgaatctcc agta 624 <210> 138 <211> 260 <212> DNA <213> Artificial Sequence <220> <223> POLG (-74,438), RHCG (+87,328) <400> 138 gactcttgct aatgactggg taggaccctc ggggtcctgc gacggtgctg gagggtgttc 60 ccggctccga tgtggggagg cctgcgcggg gactaggttc tcgagaggcg agcgggcgcg 120 ccagagaacc cgagactgct gcggggccgg atgcgggatc cctgggctgc ggttctacgc 180 agaaacgcca atggccatgc ctccccagct cctcccagcc ccagtcacta ggccggcgcc 240 tggcccggag atcctcccag 260 <210> 139 <211> 202 <212> DNA <213> Artificial Sequence <220> <223> NR2F2 (-16,885) <400> 139 cttttacttg gaaaataatg gaggtaagga ttttcttgca agttttaaat tctatggttt 60 tctaaagaac catcgttgtt ttaagtattc agtgctctct ggagtcaaga aaaagaaaaa 120 ggagacttcc tctaatgctg agtgtcctca agacagtctc caagaagcgg gagccatgcc 180 ctctcacagt gcactgtgtc ac 202 <210> 140 <211> 323 <212> DNA <213> Artificial Sequence <220> <223> RAB40C (-9,067), PIGQ (+10,272) <400> 140 cgtccctggg cgcggggtcc tgctgatgcc cggtgtgctg gcccctccct acagctgttc 60 atcgggactc tgctcttcac catcctgctc ttcctcctgc ctaccacagc cctgtactac 120 ctggtgttca ccctggtgag ctgagcaccc acaggctggg cctggctgca gtgctctgtg 180 tggcttctgc cagcgctgcc tgggagcagt cagctgtggg gcgggctgtc tcctgctgca 240 ggccacgtgg gtggcctttc aggaccctct gggcagtgag tgctgcgctc tggagtgggc 300 gaggccctat cctggccagt aag 323 <210> 141 <211> 309 <212> DNA <213> Artificial Sequence <220> <223> CPNE2 (-100,480), NLRC5 (+2,629) <400> 141 atccaatagg accggtgtcc ttataagaga ggagatggac acatgaagac agagacatac 60 ggggatcaga caatcatgga cggaggagga agagagtgcg gcgatgcatc taggagccac 120 aggacaccta gaatggccag cagccggtgg gaaccaggag aggcaaggac ggatcctctc 180 ctccagcctt cagagggagc ccggccctga ccacacctcg atctcagact ctgacctcca 240 gaactgcgag agaagaaatc tcagttgttt taatgtacgc agcttgtggc actttgtgac 300 agcagatac 309 <210> 142 <211> 258 <212> DNA <213> Artificial Sequence <220> <223> PSKH1 (-7,067), NRN1L (+1,400) <400> 142 ccccgtccga ataacttgca cactctgtgc ggtgccccgg tgcatgttcg ggagcgcggc 60 acaggctccg aaaccaacca ggagacgctg cgggctacag cgcctgcact ccccatggcc 120 cctgcgcccc cactgctggc ggctgctctg gctctggcct acctcctgag gcctctggcc 180 tagcttgttg ggttgggtag cagcgcccgt acctccagcc ctgctctggc ggtggttgtc 240 caggctctgc agagcgca 258 <210> 143 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> SRR (-114,854), HIC1 (+132,540) <400> 143 cccaggaacg gttacctcag gaagggcagt ctgagctgga gctgcatggt ctctgccttt 60 agctgcctac tgataatgta aagccatcgt aacaagaact cagatttaat taactcagtc 120 tctctagtgt ataactaaca ggagcacagt catcagttaa gattggaaaa atacacattt 180 aaaaatgatc ttctgtctac 200 <210> 144 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> HOXB9 (-92,914), PRAC1 (+3,131) <400> 144 ccgcagtcgg cgggtcgcct ggaaagacgc gccggtttcc cgggtcggat ggctctccag 60 gccgctattt cctccgccac cgagtaggga gacgccccat ttgcgaagtt taagtttcca 120 ggtcctggga aggcagctgg gaaacccgcg gggctcggca gccgccctgg tagcagccag 180 ggatcggata gcgcggcggg 200 <210> 145 <211> 206 <212> DNA <213> Artificial Sequence <220> <223> SMIM5 (-24,663), MYO15B (+9,414) <400> 145 cagggccagg taccacacct ggatgctcct gggctgcctc ccggtgcttg ttcccaggcc 60 atcgggacgc cctggctggg agcatcaccg agtgcctgcc gcctgaggtt cctgcccggc 120 ccagcctgac tctcccagca gacattgacc tgttcccttt ctccagcttc gtcgccatcg 180 gctttcaggt gggcgcccag gcctaa 206 <210> 146 <211> 781 <212> DNA <213> Artificial Sequence <220> <223> TNRC6C (-631,378), SEPT9 (+92,267) <400> 146 gggcgggggc gcagcgcgcg gggaggggcc ggcgcccgcc ttcctccccc attcattcag 60 ctgagccagg gggcctaggg gctcctccgg cggctagctc tgcactgcag gagcgcgggc 120 gcggcgcccc agccagcgcg cagggcccgg gccccgccgg gggcgcttcc tcgccgctgc 180 cctccgcgcg acccgctgcc caccagccat catgtcggac cccgcggtca acgcgcagct 240 ggatgggatc atttcggact tcgaaggtgg gtgctgggct ggctgctgcg gccgcggacg 300 tgctggagag gaccctgcgg gtgggcctgg cgcgggacgg gggtgcgctg aggggagacg 360 ggagtgcgct gaggggagac gggaccccta atccaggcgc cctcccgctg agagcgccgc 420 gcgcccccgg ccccgtgccc gcgccgccta cgtgggggac cctgttaggg gcacccgcgt 480 agaccctgcg cgccctcaca ggaccctgtg ctcgttctgc gcactgccgc ctgggtttcc 540 ttccttttat tgttgtttgt gtttgccaag cgacagcgac ctcctcgagg gctcgcgagg 600 ctgcctcgga actctccagg acgcacagtt tcactctggg aaatccatcg gtcccctccc 660 tttggctctc cccggcggct ctcgggcccc gcttggaccc ggcaacggga tagggaggtc 720 gttcctcacc tccgactgag tggacagccg cgtcctgctc gggtggacag ccctcccctc 780 c 781 <210> 147 <211> 390 <212> DNA <213> Artificial Sequence <220> <223> TBCD (+35,311), ZNF750 (+53,203) <400> 147 aagagtgagg cgtgctgtcc tgccgtttag ggcagagcac ccaggcggtt tggcagcagc 60 acctcagaac tattcagaga tttgccctca gcaagagtga gcaattgtct gacgcagccg 120 gctgaaatcc ctgggaaggg aatgaatgaa actgccgtga agcaacgcct ggcggggccg 180 ggcttctggc agctcctggg gccagcacgt cccttccaga gcgtctgaag ccctgggcgg 240 ctgctggagc atctcgagtc tttccagagt catgtgtgtt gtttccttct gtctcttgga 300 agggtccgtt tggtctgatc caggttgcct cagcaggagg aagtcgtgct gggtgctgag 360 cgggtgggag gtttcacctt gggcttggca 390 <210> 148 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> KCTD1 (-1,536) <400> 148 tttcgggccg cggtgcggag aactcaggtg ggtgcccggc aagttaccta ccaggggctg 60 ttcccccgcg accctcgcca taagcgcagg gacccggggg ccgcgctggc tccgggctgc 120 gctcctggct tggcagggga ccaggcccac gctgcagcct gggagcggag ccgcccccca 180 ggtctcccca cctctgcggg 200 <210> 149 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> SALL3 (-1,004) <400> 149 gggtggggaa caccggggcc ctgcggtccc ctccctttcc tgtatttaag aagccgccgg 60 cggcgcagag gcccaggcgg gctggcgcgg gggcgaggcg gcccggtggc agcagcgggc 120 ggggcgggcg ctccggagtc ggtggggccc gcgggttggg gggcggggag aggggggagt 180 ggaagggagg gggaacgcag 200 <210> 150 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> CTDP1 (-183,273), NFATC1 (+96,192) <400> 150 agtggagggc tctgcccatg tctgtcagac agccatgttc ttgccagggc agccagggcc 60 gggccactca agctgggtgc ttggctctcc ctgagctcga gcacgggcac gttcaggtga 120 tcttcctgat agcaaagtgc gtttctgcgc atggactcct gaggagcagc gaggagctga 180 ctcacacatt ctgccaagcc 200 <210> 151 <211> 221 <212> DNA <213> Artificial Sequence <220> <223> ZNF554 (-19,119), THOP1 (+15,295) <400> 151 ctcgcaggtc gggcactgcc aagcttggct gccagccact tgctcagccc tcccgtgtct 60 cgggcagcac atcctaccct cagcttctgg cactcaggag agacgacggg ctacaatctg 120 ccgtaaagca cgtttcccag cctgcccctc agtgggtgca ctgatcaccc gcaccattcc 180 cgcagccacc cacgccatcc cgcggccacc cgcaccgtcc c 221 <210> 152 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> CACTIN (-61,317), PIP5K1C (+12,347) <400> 152 ggggccgacg ggatgggtca gggtgcacag agcacacgcc agcccctggg ggaagcccgg 60 cccgtgcggg ctgcgggaga tcctgatggg ccccgagctg aggctcccgc agccagggtc 120 tgcgcgtggt ccccacctcc ttgcgcgctc cgtctccagc acagcagagg tggacgcccc 180 tcgcggctgg ctccccagcg 200 <210> 153 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> KDM4B (-56,963), PLIN3 (-44,389) <400> 153 gattaatttc tctggcttgc atgccatagg agaccttcat tagccctctt cccgtaagag 60 acgtgatgac ttgagtctta agaatctgag ttaacccgcc ctgccccggg aggaggcgat 120 ctggagaact tggggagttg acggtgcaag ccgcgtgtgt gcagagaaga ggcagggccg 180 ggctcgacag aggagctccg 200 <210> 154 <211> 324 <212> DNA <213> Artificial Sequence <220> <223> EPS15L1 (+70,842), KLF2 (+76,353) <400> 154 aacacacacg ccaagaacag ccagggagca aagcgaggag ttctggcttc tcgtaactca 60 tgaaggatga atgctcatcg tttaaattta gacgataaag ctgatgatga cgggcccggg 120 ggcggctatg gaaaccacct cattacgagt ccacgagaaa agagagtatg ggaggaaaga 180 gggaggcggt gcacccagcg ggggccagac acaagagaca gatgagctcg ccagcagtgc 240 cttcccagca gcccagggga cgcgtgtgct tccccataaa tccttgggac tgaggacttg 300 gctgctgaga aaagaaacac atca 324 <210> 155 <211> 296 <212> DNA <213> Artificial Sequence <220> <223> EPS8L1 (+6,011), PPP1R12C (+35,647) <400> 155 tcccctagga catcctgaac cacgtgttcg acgacgtaga gagctttgta tcgaggctgc 60 agaagtcggc ggaggcggcc agggtgctgg agcaccggga acgcggccgc aggagccggc 120 gccgggcggc tgggggtaag gggcaccctg gcgtgggatc tgaaccccct cccgatctct 180 tccaaatgtc cccgctctcc ccaggctctc ccctcccgcc acttgccagg gctgacctca 240 ccgccatctt aaccgggtgt ccacctctct ctgcctgcct ggtgctggcc ccgcgt 296 <210> 156 <211> 200 <212> DNA <213> Artificial Sequence <220> <223> NKX2-4 (-114,169), NKX2-2 (+1,829) <400> 156 tgacatggtt tgccgtccct gaccaagacg ggcacggcca cccggcgcgg cgagggcagg 60 ggcgtcacct ccataccttt ctcggcccgg gcgcgcttca tcttgtagcg gtggttctgg 120 aaccagatct tgacctgcgt gggcgtgagg cggatgaggc tggccaggtg ttcgcgctcg 180 ggcgccgaca ggtaccgctg 200 <210> 157 <211> 578 <212> DNA <213> Artificial Sequence <220> <223> TFAP2C (-1,962) <400> 157 gatttgttct agctgccttc cgtacagagg gcgcggaggt tgcgctccag ttcgaacgct 60 tacccattgg aaagagggca gcgccggggt ccagggaagc tccttgggaa tgaatggcct 120 ttgccaagcg gttccggatc ctctgggtcc tttgggccca cggcacggtg ctgcgcgagc 180 cctcagtgcc catcggctcc cttcgcctcc tgcgtagacg ctcccaggcg gggaggcata 240 tcggttcctc cgggcagctt tggctagtgt tgctgtggga aaggagagcc agggcctggg 300 atgggggatg agcaccttct tgcccattcc gggccccagc gtgcaggagg taaacttgcc 360 agcacagaca agacagcttg ttcaagctgc acctcaggcc gggtcagaga ataaaaccga 420 gggctagaag gcccagaatg tcggacagcc cagcggcacc cgtcagggag tcccaggcgc 480 ccgaaagagg cgccgcacct ctggcgagtc taggacccat cttcctggac ctgtgctctg 540 gagtgcctgc gggcctgggt ctaatttctg cttctggc 578 <210> 158 <211> 202 <212> DNA <213> Artificial Sequence <220> <223> RAE1 (-637) <400> 158 tgggcgtgtg tgagtaataa gaatccctta acatttctac agacagttct attagtaaga 60 gtagttcacg tatgatttca cttgacccta attaggaaca gccctggcat cattttcccc 120 accatgcagc aggaaactga ggcccaaaga gccccgaggt gggctcaggg taccccagtg 180 ggcaaacagg gagaggccag gg 202 <210> 159 <211> 249 <212> DNA <213> Artificial Sequence <220> <223> TNFRSF6B (+2,663), ARFRP1 (+8,326) <400> 159 accaacctgc agaacacaca cagggtcccc tggagaggac gcggggactt ccagggcccg 60 actcctgtga gtcacagccc cgcagctgct gcgccacccc caccctgact catgcccctt 120 cccagcagct cctcccagga ccccatgtcc ttcccacatc cgcaggaagg gagtgcctgg 180 actctccagg cccacctggg gagcccctca cctgcccacc agcccctgag cagcccagta 240 acaccatca 249 <210> 160 <211> 384 <212> DNA <213> Artificial Sequence <220> <223> MYH9 (-77,454), TXN2 (+16,560) <400> 160 ggtcagtgtc ctggaattgg tcaaacagga tcaccaggag gattccgtga gcacagccag 60 catgactcac ggccatgatc agcctcacgg gcagaggctg ccaacctggg atggccacag 120 ccaccggctc accttgcagg gcaacgcacc ttttaaggag ggagctggag cagcgcccgg 180 gtcctgcctc tggccaaggc ctctgccaca cttctccacg cccacccggg cagagaggcc 240 agacccccac tgggttcaaa tttggcacca cttttcagac atgaccttgg gcaagtcgat 300 ttctctgaac tgtttttttc acttatgata tggaaataat acttgcctca caagagtgga 360 attcgatgag gtaatgtgtt taga 384 <210> 161 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> ACTB probe <400> 161 accaccaccc aacacacaat aacaaacaca 30 <210> 162 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> ACTB Forward primer <400> 162 tggaggaggt ttagtaagtt ttttg 25 <210> 163 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> ACTB Reverse primer <400> 163 cctcccttaa aaattacaaa aacca 25 <210> 164 <211> 117 <212> DNA <213> Artificial Sequence <220> <223> TLX2 region 1 <400> 164 cgagcagggc ctggtgagaa gcgacgcggc gggcgccccg ctgaccccgc gtctccctcc 60 cttaggcgcc agacggcgga ggagcgcgag gccgagcggc accgcgcggg ccggctg 117 <210> 165 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> TLX2 probe1 <400> 165 cgggcgtttc gttgatttcg c 21 <210> 166 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> TLX2 Forward primer 1 <400> 166 gtttggtgag aagcgac 17 <210> 167 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> TLX2 Reverse primer 1 <400> 167 gccgtctaac gcctaaa 17 <210> 168 <211> 221 <212> DNA <213> Artificial Sequence <220> <223> TLX2 region 2 <400> 168 ccgcgtctcc ctcccttaaa cgccaaacga cgaaaaaacg cgaaaccgaa cgacaccgcg 60 cgaaccgact actcctacat ctacaacaaa acgcgttacc acgaccgcta cgaccgccgc 120 tacccccgaa ccctctctac ctacacaact cgtcgctctt cgcgctacaa aacctacaac 180 cctaaaccga aaacaacaaa ataacttcaa tatccgaact c 221 <210> 169 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> TLX2 probe2 <400> 169 cgaccgctac gaccgcc 17 <210> 170 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> TLX2 Forward primer 2 <400> 170 catctacaac aaaacgcg 18 <210> 171 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> TLX2 Reverse primer 2 <400> 171 gttttgtagc gcgaagag 18 <210> 172 <211> 102 <212> DNA <213> Artificial Sequence <220> <223> EBF2 region 1 <400> 172 gtacccacat gcacaagcgc tcactcggcc ccgcacgcaa gcagcgcccc gcgcgcccgg 60 ggccctcctc ggataaggga ggggtgacaa aagtctcccg ct 102 <210> 173 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> EBF2 probe1 <400> 173 agcgtttcgc gcgttcgg 18 <210> 174 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> EBF2 Forward primer 1 <400> 174 cgtttattcg gtttcgtacg 20 <210> 175 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> EBF2 Reverse primer 1 <400> 175 cctcccttat ccgaaaaaaa c 21 <210> 176 <211> 196 <212> DNA <213> Artificial Sequence <220> <223> EBF2 region 2 <400> 176 gttcgttagt cggtagggga aagttcgagg gattttttag ttttttttcg gatcgcggcg 60 gaggtgtgag cgatgtgttg attatttata tttttatcga gcgtatattt tgttgcggtc 120 ggcgtcgtta tattttatac gtatattgac gtatttatat gtataagcgt ttattcggtt 180 tcgtacgtaa gtagcg 196 <210> 177 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> EBF2 probe2 <400> 177 tttcggatcg cggcggag 18 <210> 178 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> EBF2 Forward primer 2 <400> 178 gttcgttagt cggtaggg 18 <210> 179 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> EBF2 Reverse primer 2 <400> 179 gcaacaaaat atacgctcga 20 <210> 180 <211> 148 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 region 1 <400> 180 tgccgcgctc cagagattgt gtcgtgggcg ccgtcctagt ggcggggagc gcacctccga 60 gggggcatga gatcggagaa atcccttacg ctggcggcgc cgggggaggt ccgtgggccg 120 gagggagagc aacaggatgc gggagact 148 <210> 181 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 probe1 <400> 181 atcccttacg ctaacgacgc c 21 <210> 182 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 Forward primer 1 <400> 182 aacgcacctc cgaaaaaa 18 <210> 183 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 Reverse primer 1 <400> 183 tgtttttttt tcggtttacg g 21 <210> 184 <211> 196 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 region 2 <400> 184 aatccccaac gcccaaatca cctccccaaa cccaacctta caaaaaccaa aactttaaaa 60 ctcacgaacc caacgaccaa atcaaaccgc gaaccgaaaa aaacgcgaac cccaccctaa 120 aaaaaacgca accgaaaact aaaaaacgaa taccgcgctc caaaaattat atcgtaaacg 180 ccgtcctaat aacgaa 196 <210> 185 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 probe2 <400> 185 ccgcgaaccg aaaaaaacgc g 21 <210> 186 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 Forward primer 2 <400> 186 accaaaactt taaaactcac g 21 <210> 187 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 Reverse primer 2 <400> 187 gatataattt ttggagcgcg 20 <210> 188 <211> 203 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 region 3 <400> 188 gacgccgaaa aaaatccgta aaccgaaaaa aaaacaacaa aatacgaaaa acttcccgaa 60 aaccgacgaa aacgaaaact actataataa cgaacgacta ataatcaata tctccgaact 120 acgctttaaa acacaattac gcaccctatc gctatttccg aacacgctac tcgaaaaccc 180 taaccgacga atccgcttct tcg 203 <210> 189 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 probe3 <400> 189 ccgaacacgc tactcgaaaa ccc 23 <210> 190 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 Forward primer 3 <400> 190 caatatctcc gaactacgc 19 <210> 191 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> KCNA6 Reverse primer 3 <400> 191 gaagaagcgg attcgtcg 18 <210> 192 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 region 1 <400> 192 cgttccttcc tcttcctggg ccacaatctt ggctttcccg ggccggcttc acgcagttgc 60 gcaggagccc gcgggggaag acctctcgtg gggacctcga gcacgacgtg cgaccctaaa 120 120 <210> 193 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 probe1 <400> 193 cggttttacg tagttgcgta ggagt 25 <210> 194 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 Forward primer 1 <400> 194 ggttataatt ttggtttttt cggg 24 <210> 195 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 Reverse primer 1 <400> 195 gaaaaatctt cccccgcg 18 <210> 196 <211> 196 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 region 2 <400> 196 taggcgtttg agttttcggg tttttaggag tttttcgtat aaggatttta gggatttttt 60 tttttacgcg gtcgggtcgt tcgttcggtt tttagttcgg agagttgtta tcgatttttt 120 taacgtttta agttttagtt ttgtcgttcg cgtttttttt tttttttggg ttataatttt 180 ggttttttcg ggtcgg 196 <210> 197 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 probe2 <400> 197 cgcggtcggg tcgttcgttc 20 <210> 198 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 Forward primer 2 <400> 198 taggcgtttg agttttcg 18 <210> 199 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 Reverse primer 2 <400> 199 gataacaact ctccgaact 19 <210> 200 <211> 224 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 region 3 <400> 200 cttcacgcaa ttacgcaaaa acccgcgaaa aaaaacctct cgtaaaaacc tcgaacacga 60 cgtacgaccc taaatcccca catctcctct accgcctcgc aaaccacata caccgaaaac 120 cgaacgaaac aaacgcgacc cgcaaaaacc cccgcgataa aaacgcaaca ctaccgcgac 180 tacacttaaa acaaccccgc cgcgtcccaa ccgcctcccg acaa 224 <210> 201 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 probe3 <400> 201 cgcgacccgc aaaaaccc 18 <210> 202 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 Forward primer 3 <400> 202 cgtaaaaacc tcgaacacg 19 <210> 203 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> CCNA1 Reverse primer 3 <400> 203 tgttgcgttt ttatcgcg 18 <210> 204 <211> 141 <212> DNA <213> Artificial Sequence <220> <223> FOXD3 region 1 <400> 204 tgggcgaggg cgacgacggg ctggaagaga aggacagcga cgcaggttgc gatagccccg 60 cggggccgcc ggagctgcgc ctggacgagg cggacgaggt gcccccggcg gcaccccatc 120 acggacagcc tcagccgccc c 141 <210> 205 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> FOXD3 probe1 <400> 205 cgcgaaaccg ccgaaactac g 21 <210> 206 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> FOXD3 Forward primer 1 <400> 206 gtatttcgtt cgtttcgttt a 21 <210> 207 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> FOXD3 Reverse primer 1 <400> 207 acgcaaatta cgataaccc 19 <210> 208 <211> 188 <212> DNA <213> Artificial Sequence <220> <223> TRIM58 region 1 <400> 208 ggtgcccggt gtgcctggat ttcctgcagg agccggtcag cgtggactgc ggccacagct 60 tctgcctcag gtgcatctcc gagttctgcg agaagtcgga cggcgcgcag ggcggcgtct 120 acgcctgtcc gcagtgccgg ggccccttcc ggccctcggg ctttcgcccc aaccggcagc 180 tggcgggc 188 <210> 209 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> TRIM58 probe1 <400> 209 cgcgccgtcc gacttctcg 19 <210> 210 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> TRIM58 Forward primer 1 <400> 210 ggattgcggt tatagttttt g 21 <210> 211 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> TRIM58 Reverse primer 1 <400> 211 cgacactacg aacaaacgt 19 <210> 212 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> HOXD10 region 1 <400> 212 caggacatgg ccaggcgctg ccgcttgtcc ttcatgcgcc ggttctggaa ccacacctgc 60 ggggagagac gcgccgcagc ctgggttagg gagcgccccg tgttcccagc tcctgtccca 120 120 <210> 213 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> HOXD10 probe1 <400> 213 acgcgtctct ccccgcaa 18 <210> 214 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> HOXD10 Forward primer 1 <400> 214 tccctaaccc aaactacg 18 <210> 215 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> HOXD10 Reverse primer 1 <400> 215 ttaggatatg gttaggcgtt gtc 23 <210> 216 <211> 154 <212> DNA <213> Artificial Sequence <220> <223> OLIG3 region 1 <400> 216 agtgaggcgg cggacagcgg tgacgaggcg ttgccagatg agagcgcgcc gcccaagatg 60 gggtgcaccg ggtgcacgga gttggccgcg tgcgcggggt ggccggccga gtggcccacg 120 gtcccgcagt gaaaggccga gtggtggccc ccat 154 <210> 217 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> OLIG3 probe1 <400> 217 cacgaaatta accgcgtacg c 21 <210> 218 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> OLIG3 Forward primer 1 <400> 218 gcccaaaata aaatacaccg 20 <210> 219 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> OLIG3 Reverse primer 1 <400> 219 gttattcggt cggttatttc 20 <210> 220 <211> 116 <212> DNA <213> Artificial Sequence <220> <223> EN2 region 1 <400> 220 cggcgcgatc agtagcgccc actaacagtt cgttctgcac ggcggagcgc gagaccgcgg 60 acccacggaa gccccctcaa tggtgtttgc gtcctcgccg ccaccggctt ggtagg 116 <210> 221 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> EN2 probe1 <400> 221 aacgcgaaac cgcgaaccc 19 <210> 222 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> EN2 Forward primer 1 <400> 222 cactaacaat tcgttctaca c 21 <210> 223 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EN2 Reverse primer 1 <400> 223 cgaggacgta aatattattg agg 23 <210> 224 <211> 615 <212> DNA <213> Artificial Sequence <220> <223> CLEC11A region 1 <400> 224 cccatgagtt cctggccccg cctccctcca cccccggatg ttttgtcctc gcccccttcc 60 agactctgaa tgcatgaccc cgcctccttc tctacccggc cccgcccaca ggctgcctga 120 aggggctgcg cctgggccac aagtgcttcc tgctctcgcg cgacttcgaa gctcaggcgg 180 cggcgcaggc gcggtgcacg gcgcggggcg ggagcctggc gcagccggca gaccgccagc 240 agatggaggc gctcactcgg tacctgcgcg cggcgctcgc tccctacaac tggcccgtgt 300 ggctgggcgt gcacgatcgg cgcgccgagg gcctctacct cttcgaaaac ggccagcgcg 360 tgtccttctt cgcctggcat cgctcacccc gccccgagct cggcgcccag cccagcgcct 420 cgccgcatcc gctcagcccg gaccagccca acggtggcac gctcgagaac tgcgtggcgc 480 aggcctctga cgacggctcc tggtgggacc acgactgcca gcggcgtctc tactacgtct 540 gcgagttccc cttctagcgg ggccggtacc ccgcctccct gcccatccca ccacccggcc 600 tttccctgcg ccgtg 615 <210> 225 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> CLEC11A probe1 <400> 225 cgtcgtcaaa aacctacgcc acg 23 <210> 226 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> CLEC11A Forward primer 1 <400> 226 gtggtacgtt cgagaattg 19 <210> 227 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CLEC11A Reverse primer 1 <400> 227 cgtaataaaa acgccgctaa 20 <210> 228 <211> 539 <212> DNA <213> Artificial Sequence <220> <223> TWIST1 region 1 <400> 228 gggctgcccg gctcgtcgcc gcctccgacg cccccacccg cggctccgcc gggccccgcg 60 ccgccgcccg cgctgcgcct gctgctgcgc cgcttgcgtc ccccgcgctt gccgctcggc 120 ggctgctgcc ggtctggctc ttcctcgctg ttgctcaggc tgtcgtcggc cggcgagact 180 ggcgagctgg acacgtcctg catcatctct cgagcggcga cgcgtggcct cgcgggcccg 240 gggcagagga gaagagcggg gcgcctcagc ccgccagctt cccccgcgcg cggcgccggc 300 ccgggcgatg cggcccgcgg aggagagagc aggaggacgg acgggaggga cctccgcggg 360 gagggcgcgc gggggaggcg gggagggagg cgggaggggg aggggacggt gtggatggcc 420 ccgaggtcca aaaagaaagc gcccaacggc tggacgcaca ccccgccagg cctcctggaa 480 acggtgccgg tgctgcagag cccgcgaggt gtctgggagt tgggcgagag ctgcagact 539 <210> 229 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> TWIST1 probe1 <400> 229 cgcgcttacc gctcgacga 19 <210> 230 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> TWIST1 Forward primer 1 <400> 230 ctactactac gccgcttac 19 <210> 231 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> TWIST1 Reverse primer 1 <400> 231 gcgaggaaga gttagatcg 19 <210> 232 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> EMX1 region 1 <400> 232 gacccggaaa tccgttgggc actgaaggac ttttcgaacc ctgtagcgct gttgcttcgc 60 ggtccatcgt cgccgctgca gacggatgcg ctccccggcg gctctacgcc ctccagtccc 120 120 <210> 233 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> EMX1 probe1 <400> 233 tcgtcgtcgt tgtagacgga 20 <210> 234 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> EMX1 Forward primer 1 <400> 234 gtagcgttgt tgtttcgc 18 <210> 235 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> EMX1 Reverse primer 1 <400> 235 gtaaaaccgc cgaaaaacgc 20

Claims (61)

  1. 검사할 샘플에서 EBF2 유전자 또는 이의 단편의 DNA 영역의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는, 췌장 종양의 존재를 결정, 췌장 종양의 발병 또는 발병 위험을 평가, 및/또는 췌장 종양의 진행을 평가하는 방법.
  2. 검사할 샘플에서 EBF2 유전자 또는 이의 단편의 DNA 영역의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는, 췌장 종양과 관련된 DNA 영역의 메틸화 상태를 평가하는 방법.
  3. 제1항 내지 제2항 중 어느 한 항에 있어서, 상기 DNA 영역은 인간 chr8:25699246-25907950으로부터 유래되는 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 검사할 샘플에서 핵산을 얻는 단계를 추가로 포함하는 방법.
  5. 제4항에 있어서, 상기 핵산은 무세포 핵산을 포함하는 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 검사할 샘플은 조직, 세포 및/또는 체액을 포함하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 검사할 샘플은 혈장을 포함하는 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 DNA 영역 또는 이의 단편을 변환시키는 단계를 추가로 포함하는 방법.
  9. 제8항에 있어서, 변형 상태를 갖는 염기와 변형 상태가 없는 염기는 변환 후 서로 다른 물질을 형성하는 것을 특징으로 하는 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 변형 상태를 갖는 염기는 변환 후 실질적으로 변하지 않고;
    상기 변형 상태가 없는 염기는 변환 후 상기 변형 상태가 없는 염기와 다른 염기로 변경되거나 변환 후 절단되는 방법.
  11. 제9항 내지 제10항 중 어느 한 항에 있어서, 상기 염기는 시토신을 포함하는 것을 특징으로 하는 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 변형 상태는 메틸화 변형을 포함하는 것을 특징으로 하는 방법.
  13. 제10항 내지 제12항 중 어느 한 항에 있어서, 상기 다른 염기는 우라실을 포함하는 방법.
  14. 제8항 내지 제13항 중 어느 한 항에 있어서, 상기 변환은 탈아미노화 시약 및/또는 메틸화 민감성 제한 효소에 의한 변환을 포함하는 방법.
  15. 제14항에 있어서, 상기 탈아미노화 시약은 중아황산염 또는 이의 유사체를 포함하는 방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 단계는 상기 변형 상태를 갖는 염기의 변환 후에 형성된 물질의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 단계는 상기 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
  18. 제1항 내지 제17항 중 어느 한 항에 있어서, 상기 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량은 형광 PCR 방법에 의해 검출된 형광 Ct 값에 의해 결정되는 방법.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서, 상기 췌장 종양의 존재, 또는 췌장 종양의 발병 또는 발병 위험은 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 참조 수준에 비해 DNA 영역 또는 이의 단편의 변형 상태의 더 높은 함량을 결정함으로써 평가되는 방법.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서, 상기 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계 이전에 검사할 샘플에서 DNA 영역 또는 이의 단편을 증폭시키는 단계를 추가로 포함하는 방법.
  21. 제20항에 있어서, 상기 증폭은 PCR 증폭을 포함하는 방법.
  22. 검사할 샘플 내 인간 chr8:25907849-25907950 및 인간 chr8:25907698-25907894로부터 유래된 DNA 영역, 또는 그의 상보적 영역, 또는 그의 단편으로 구성된 군으로부터 선택되는 DNA 영역의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는,
    질병의 존재를 결정하고, 질병의 발생 또는 발병 위험을 평가 및/또는 질병의 진행을 평가하는 방법.
  23. 검사할 샘플 내 인간 chr8:25907849-25907950 및 인간 chr8:25907698-25907894로부터 유래된 DNA 영역, 또는 그의 상보적 영역, 또는 그의 단편으로 구성된 군으로부터 선택되는 DNA 영역의 변형 상태의 존재 및/또는 함량을 결정하는 단계를 포함하는,
    DNA 영역의 메틸화 상태를 결정하는 방법.
  24. 제22항 내지 제23항 중 어느 한 항에 있어서, 서열번호 172 및 서열번호 176으로 구성된 군으로부터 선택되는 DNA 영역, 이의 상보적 영역, 이의 전*된 영역, 또는 이의 단편에 결합할 수 있는 핵산을 제공하는 단계를 포함하는 방법.
  25. 제22항 내지 제24항 중 어느 한 항에 있어서, 인간 chr8:25907865-25907930 및 인간 chr8:25907698-25907814로부터 유래된 DNA 영역, 또는 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편으로 구성된 군으로부터 선택되는 DNA 영역에 결합할 수 있는 핵산을 제공하는 단계를 포함하는 방법.
  26. 제22항 내지 제25항 중 어느 한 항에 있어서, 서열번호 173 및 서열번호 177로 구성된 군으로부터 선택되는 핵산, 이의 상보적 핵산, 또는 이의 단편을 제공하는 단계를 포함하는 방법.
  27. 제22항 내지 제26항 중 어느 한 항에 있어서, 서열번호 174 및 175, 및 서열번호 178 및 179로 구성된 군으로부터 선택되는 핵산 조합, 또는 이의 상보적 핵산 조합, 또는 이의 단편을 제공하는 단계를 포함하는 방법.
  28. 제22항 내지 제27항 중 어느 한 항에 있어서, 상기 질병은 종양을 포함하는 것을 특징으로 하는 방법.
  29. 제22항 내지 제28항 중 어느 한 항에 있어서, 검사할 샘플에서 핵산을 얻는 단계를 추가로 포함하는 방법.
  30. 제29항에 있어서, 상기 핵산은 무세포 핵산을 포함하는 방법.
  31. 제22항 내지 제30항 중 어느 한 항에 있어서, 상기 검사할 샘플은 조직, 세포 및/또는 체액을 포함하는 방법.
  32. 제22항 내지 제31항 중 어느 한 항에 있어서, 상기 검사할 샘플은 혈장을 포함하는 방법.
  33. 제22항 내지 제32항 중 어느 한 항에 있어서, DNA 영역 또는 이의 단편을 변환시키는 단계를 추가로 포함하는 방법.
  34. 제33항에 있어서, 상기 변형 상태를 갖는 염기와 변형 상태가 없는 염기는 변환 후 서로 다른 물질을 형성하는 방법.
  35. 제22항 내지 제34항 중 어느 한 항에 있어서, 상기 변형 상태를 갖는 염기는 변환 후 실질적으로 변하지 않고;
    상기 변형 상태가 없는 염기는 변환 후 상기 변형 상태가 없는 염기와 다른 염기로 변경되거나 변환 후 절단되는 방법.
  36. 제34항 내지 제35항 중 어느 한 항에 있어서, 상기 염기는 시토신을 포함하는 것을 특징으로 하는 방법.
  37. 제22항 내지 제36항 중 어느 한 항에 있어서, 상기 변형 상태는 메틸화 변형을 포함하는 것을 특징으로 하는 방법.
  38. 제35항 내지 제37항 중 어느 한 항에 있어서, 상기 다른 염기는 우라실을 포함하는 것을 특징으로 하는 방법.
  39. 제33항 내지 제38항 중 어느 한 항에 있어서, 상기 변환은 탈아미노화 시약 및/또는 메틸화 민감성 제한 효소에 의한 변환을 포함하는 방법.
  40. 제39항에 있어서, 상기 탈아미노화 시약은 중아황산염 또는 이의 유사체를 포함하는 방법.
  41. 제22항 내지 제40항 중 어느 한 항에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 단계는 변형 상태를 갖는 염기의 변환 후에 형성된 물질의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
  42. 제22항 내지 제41항 중 어느 한 항에 있어서, 상기 변형 상태의 존재 및/또는 함량을 결정하는 단계는 상기 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량을 결정하는 단계를 포함하는 방법.
  43. 제22항 내지 제42항 중 어느 한 항에 있어서, 상기 변형 상태를 갖는 DNA 영역 또는 이의 단편의 존재 및/또는 함량은 형광 PCR 방법에 의해 검출된 형광 Ct 값에 의해 결정되는 방법.
  44. 제22항 내지 제43항 중 어느 한 항에 있어서, 상기 췌장 종양의 존재, 또는 췌장 종양의 발병 또는 발병 위험은 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 참조 수준에 비해 DNA 영역 또는 이의 단편의 변형 상태의 더 높은 함량을 결정함으로써 평가되는 방법.
  45. 제22항 내지 제44항 중 어느 한 항에 있어서, 상기 DNA 영역 또는 이의 단편의 변형 상태의 존재 및/또는 함량을 결정하는 단계 이전에 검사할 샘플에서 DNA 영역 또는 이의 단편을 증폭시키는 단계를 추가로 포함하는 방법.
  46. 제45항에 있어서, 상기 증폭은 PCR 증폭을 포함하는 방법.
  47. EBF2 유전자의 DNA 영역, 이의 상보적 영역, 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 서열을 포함하는 핵산.
  48. DNA 영역, 이의 상보적인 영역, 이의 변환된 영역, 또는 이의 단편의 변형 상태에 기초하여, EBF2 유전자의 DNA 영역, 이의 상보적 영역, 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 핵산을 설계하는 단계를 포함하는 핵산의 제조방법.
  49. EBF2 유전자의 DNA 영역, 이의 상보적 영역, 이의 변환된 영역, 또는 이의 단편에 결합할 수 있는 서열을 포함하는 핵산 조합.
  50. DNA 영역, 이의 상보적인 영역, 이의 변환된 영역, 또는 이의 단편의 변형 상태에 기초하여, EBF2 유전자의 DNA 영역, 이의 상보적 영역, 이의 변환된 영역, 또는 이의 단편을 증폭할 수 있는 핵산 조합을 설계하는 단계를 포함하는 핵산 조합의 제조방법.
  51. 제47항의 핵산 및/또는 제49항의 핵산 조합을 포함하는 키트.
  52. 질병 검출 제품의 제조를 위한 제47항의 핵산, 제49항의 핵산 조합 및/또는 제51항의 키트의 용도.
  53. 질병의 존재를 결정, 질병의 발병 또는 발병 위험을 평가 및/또는 질병의 진행을 평가하기 위한 물질의 제조를 위한 제47항의 핵산, 제49항의 핵산 조합 및/또는 제51항의 키트의 용도.
  54. DNA 영역 또는 이의 단편의 변형 상태를 결정하기 위한 물질의 제조를 위한 제47항의 핵산, 제49항의 핵산 조합 및/또는 제51항의 키트의 용도.
  55. 췌장 종양의 존재를 결정, 췌장 종양의 발병 또는 발병 위험을 평가 및/또는 췌장 종양의 진행을 평가하기 위한 물질의 제조에 있어, DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 및/또는 키트의 용도,
    여기서 결정을 위한 상기 DNA 영역은 EBF2 유전자 또는 이의 단편의 DNA 영역을 포함함.
  56. 질병의 존재를 결정하고, 질병의 발생 또는 발병 위험을 평가 및/또는 질병의 진행을 평가하기 위한 물질의 제조에 있어, DNA 영역의 변형 상태를 결정하기 위한 핵산, 핵산 조합 및/또는 키트의 용도,
    여기서 상기 DNA 영역은 인간 chr8:25907849-25907950 및 인간 chr8:25907698-25907894로부터 유래된 DNA 영역, 또는 이의 상보적 영역, 또는 이의 단편으로 이루어진 군으로부터 선택된 DNA 영역을 포함함.
  57. 췌장 종양의 존재를 결정, 췌장 종양의 발병 또는 발병 위험을 평가 및/또는 췌장 종양의 진행을 평가하기 위한 물질의 제조에 있어,
    EBF2 유전자의 DNA 영역의 핵산, 이의 변환된 영역, 이의 단편, 및 상기 언급된 핵산 조합의 용도.
  58. 질병의 존재를 결정하고, 질병의 발생 또는 발병 위험을 평가 및/또는 질병의 진행을 평가하기 위한 물질의 제조에 있어,
    인간 chr8:25907849-25907950 및 인간 chr8:25907698-25907894로부터 유래된 DNA 영역, 또는 이의 상보적 영역, 또는 이의 변환된 영역, 또는 이의 단편으로 구성된 군에서 선택되는 DNA 영역 및 상기 언급된 핵산 조합의 핵산의 용도
  59. 제1항 내지 제46항 중 어느 한 항의 방법을 실행할 수 있는 프로그램을 기록한 저장매체.
  60. 제59항의 저장 매체를 포함하는 장치.
  61. 제60항에 있어서, 상기 저장 매체에 결합된 프로세서를 더 포함하고, 상기 프로세서는 제1항 내지 제46항 중 어느 한 항에 따른 방법을 구현하기 위해 상기 저장 매체에 저장된 프로그램에 기초하여 실행하도록 구성되는 장치.
KR1020247001904A 2021-06-18 2022-06-17 종양 평가를 위한 물질 및 방법 KR20240021975A (ko)

Applications Claiming Priority (25)

Application Number Priority Date Filing Date Title
CN202110679281.8 2021-06-18
CN202110680924.0 2021-06-18
CN202110679281.8A CN115491421A (zh) 2021-06-18 2021-06-18 胰腺癌诊断相关dna甲基化标志物及其应用
CN202110680924.0A CN115491411A (zh) 2021-06-18 2021-06-18 鉴别胰腺炎和胰腺癌的甲基化标志物及其应用
CN202111191903.9A CN115985486A (zh) 2021-10-13 2021-10-13 一种基于机器学习的胰腺癌诊断方法
CN202111191903.9 2021-10-13
CN202111608215 2021-12-24
CN202111608215.8 2021-12-24
CN202111608328.8 2021-12-24
CN202111600984 2021-12-24
CN202111598099 2021-12-24
CN202111598099.6 2021-12-24
CN202111608328 2021-12-24
CN202111600984.3 2021-12-24
CN202210047980.5 2022-01-17
CN202210047980 2022-01-17
CN202210092038.0 2022-01-26
CN202210092055.4 2022-01-26
CN202210092040.8 2022-01-26
CN202210092040 2022-01-26
CN202210091957 2022-01-26
CN202210091957.6 2022-01-26
CN202210092038 2022-01-26
CN202210092055 2022-01-26
PCT/CN2022/099311 WO2022262831A1 (zh) 2021-06-18 2022-06-17 用于评估肿瘤的物质及其方法

Publications (1)

Publication Number Publication Date
KR20240021975A true KR20240021975A (ko) 2024-02-19

Family

ID=84526888

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020247001904A KR20240021975A (ko) 2021-06-18 2022-06-17 종양 평가를 위한 물질 및 방법

Country Status (7)

Country Link
US (1) US20240141442A1 (ko)
EP (1) EP4372103A1 (ko)
KR (1) KR20240021975A (ko)
CN (1) CN117500942A (ko)
AU (1) AU2022292704A1 (ko)
CA (1) CA3222729A1 (ko)
WO (1) WO2022262831A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117936104B (zh) * 2024-03-25 2024-06-04 青岛山大齐鲁医院(山东大学齐鲁医院(青岛)) 一种基于局部阈值分割算法的胃癌免疫评分方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2575557A1 (en) * 2004-07-30 2006-02-09 Rosetta Inpharmatics Llc Prognosis of breast cancer patients
WO2013097868A1 (en) * 2011-12-27 2013-07-04 Region Syddanmark Detection of adenomas of the colon or rectum
US20130274127A1 (en) * 2012-04-17 2013-10-17 Genomic Health, Inc. Gene expression markers for prediction of response to phosphoinositide 3-kinase inhibitors
GB201212334D0 (en) * 2012-07-11 2012-08-22 Warwick The Therapeutic targets for alzheimers disease
WO2017165704A1 (en) * 2016-03-23 2017-09-28 University Of Miami Treatment of cancer by activating endogenous cryptic amyloidogenic aggregating peptides
KR102056405B1 (ko) * 2018-04-05 2019-12-16 (주)메디젠휴먼케어 Ebf2 유전자 다형성을 이용한 가와사키병 발병 예측 방법

Also Published As

Publication number Publication date
CN117500942A (zh) 2024-02-02
CA3222729A1 (en) 2022-12-22
EP4372103A1 (en) 2024-05-22
WO2022262831A1 (zh) 2022-12-22
US20240141442A1 (en) 2024-05-02
AU2022292704A1 (en) 2024-01-18

Similar Documents

Publication Publication Date Title
KR101443214B1 (ko) 폐암 환자 또는 폐암 치료를 받은 폐암 환자의 폐암 재발 위험을 진단하기 위한 조성물, 키트 및 마이크로어레이
JP6618894B2 (ja) 個別的エピゲノミクスのための天然クロマチンへの転移
US20070128636A1 (en) Predictors Of Patient Response To Treatment With EGFR Inhibitors
CN116218988A (zh) 用于诊断结核病的方法
JP2007509613A (ja) 遺伝子発現プロファイリングのためのqRT−PCRアッセイシステム
JP2015503923A (ja) 結腸直腸癌の解析のための方法およびバイオマーカー
AU2017281099A1 (en) Compositions and methods for diagnosing lung cancers using gene expression profiles
CN112553328B (zh) 检测基因表达水平的产品及其在制备重度抑郁症诊断工具中的应用
US20170130269A1 (en) Diagnosis of neuromyelitis optica vs. multiple sclerosis using mirna biomarkers
CN108026583A (zh) Hla-b*15:02的单核苷酸多态性及其应用
US20120004127A1 (en) Gene expression markers for colorectal cancer prognosis
CN108676872A (zh) 一种与哮喘相关的生物标志物及其应用
CN112921091B (zh) Flt3基因突变在预测非小细胞肺癌患者对免疫检查点抑制剂疗法敏感性中的应用
KR20240021975A (ko) 종양 평가를 위한 물질 및 방법
WO2020194057A1 (en) Biomarkers for disease detection
CA3085464A1 (en) Compositions and methods for diagnosing lung cancers using gene expression profiles
WO2018211404A1 (en) Composite epigenetic biomarkers for accurate screening, diagnosis and prognosis of colorectal cancer
Robetorye et al. Profiling of lymphoma from formalin-fixed paraffin-embedded tissue
KR101929164B1 (ko) 샤르코-마리-투스 질환 진단용 키트
CN113637782B (zh) 与急性胰腺炎病程进展相关的微生物标志物及其应用
CN114574584B (zh) 一组肿瘤检测标志物及其用途
CN115491421A (zh) 胰腺癌诊断相关dna甲基化标志物及其应用
TW201934758A (zh) 用以預斷吉特曼症候群的方法及套組
CN110317875B (zh) 一种与肺癌相关的甲基化基因及其检测试剂盒
JP7504854B2 (ja) 個別的エピゲノミクスのための天然クロマチンへの転移