KR102548873B1 - 대장암 및 진행 선종의 선별 검사 방법 및 그 응용 - Google Patents

대장암 및 진행 선종의 선별 검사 방법 및 그 응용 Download PDF

Info

Publication number
KR102548873B1
KR102548873B1 KR1020220170535A KR20220170535A KR102548873B1 KR 102548873 B1 KR102548873 B1 KR 102548873B1 KR 1020220170535 A KR1020220170535 A KR 1020220170535A KR 20220170535 A KR20220170535 A KR 20220170535A KR 102548873 B1 KR102548873 B1 KR 102548873B1
Authority
KR
South Korea
Prior art keywords
genes
gene
seq
nos
colorectal cancer
Prior art date
Application number
KR1020220170535A
Other languages
English (en)
Inventor
황다솜
양효석
Original Assignee
주식회사 이노제닉스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이노제닉스 filed Critical 주식회사 이노제닉스
Priority to CN202280044267.3A priority Critical patent/CN117545856A/zh
Priority to PCT/KR2022/020609 priority patent/WO2023128429A1/ko
Priority to CA3185536A priority patent/CA3185536A1/en
Priority to US18/088,405 priority patent/US20230212692A1/en
Application granted granted Critical
Publication of KR102548873B1 publication Critical patent/KR102548873B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57419Specifically defined cancers of colon
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/56Staging of a disease; Further complications associated with the disease

Landscapes

  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Immunology (AREA)
  • Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Physics & Mathematics (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Biomedical Technology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • General Physics & Mathematics (AREA)
  • Cell Biology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)

Abstract

본 발명은 시료에서 MKi67, KRT19, EpCAM, TYMS, PPARG, MCAM, ANKHD1-EIF4EBP3, SNAI2, MMP23B, FOXA2. NPTN, GPR15, TERT, VIM, ERBB2 유전자 또는 그 유전자에 의해 인코딩되는 단백질의 상대적 발현량을 측정하고, 여기서, MKi67, KRT19 및 EpCAM 유전자 또는 그 유전자에 의하여 인코딩되는 단백질이 다른 유전자 또는 그 유전자에 의하여 인코딩되는 단백질에 비하여 높게 발현되면 정상군으로 판단하고, TYMS, PPARG, MCAM, 및 ANKHD1-EIF4EBP3 유전자 또는 그 유전자에 의하여 인코딩되는 단백질이 다른 유전자 또는 그 유전자에 의하여 인코딩되는 단백질에 비하여 높게 발현되면 대장암군으로 판단하며, SNAI2, MMP23B, 및 FOXA2 유전자 또는 그 유전자에 의하여 인코딩되는 단백질이 다른 유전자 또는 그 유전자에 의하여 인코딩되는 단백질에 비하여 높게 발현되면 진행선종군 및 대장암군으로 판단하고,NPTN, GPR15, TERT, VIM, ERBB2 유전자 또는 그 유전자에 의하여 인코딩되는 단백질이 다른 유전자 또는 그 유전자에 의하여 인코딩되는 단백질에 비하여 높게 발현되면 진행선종군으로 판단하는 것을 특징으로 하는 대장암 및 진행 선종군의 선별 방법에 관한 것이다.

Description

대장암 및 진행 선종의 선별 검사 방법 및 그 응용{A method for sorting colorectal cancer and advanced neoplasia and use of the same}
본 발명은 대장암 및 진행 선종의 선별 검사 방법 및 그 응용에 관한 것이다.
대장암은 결장과 직장에 발생하는 암으로 2020년 기준, 전 세계적으로 3번째로 많이 발병하는 암이며, 암으로 인한 사망률의 2위를 차지하고 있다.
한국인의 대장암 발병률은 세계 1위로 세계보건기구(WHO) 산하 국제암연구소(IARC)가 세계 184개국을 대상으로 조사한 '세계 대장암 발병 현황'에 의하면 한국인의 대장암 발병률은 10만 명당 45명으로 대상 국가 중 가장 높게 나타난다. 또한 2020년 통계청 자료에 의하면 암으로 인한 사망 원인의 3번째가 대장암인 것으로 보고된다. 즉 대장암은 발병률과 사망률이 세계적으로나 한국에서 높은 암이다.
대장암의 사망률을 낮추는데 가장 중요한 것은 대장암의 조기발견과 적절한 치료이다. 최근 보고에 의하면 대장암 초기인 병기, stage I에 대장암 발견이 이뤄지는 경우 환자의 생존율이 90%에 달하는데 비해 대장암 말기인 stage IV에 이뤄지는 경우 불과 14%에 못미쳐 조기 대장암 진단이 환자의 생존율 제고에 매우 중요함을 시사하고 있다.
그럼에도 불구하고 현재 stage I에 발견되는 대장암은 37%에 그치고 있는 반면, stage IV에 발견되는 환자도 21%나 된다. 따라서 정기적인 대장암 선별검사를 통한 대장암 조기진단율 향상이 대장암 사망률을 줄이는 데 매우 중요하다고 할 수 있다.
대장암의 조기진단에 도움을 주는 것은 대장암뿐만 아니라 대장내 용종, 혹은 선종 검출임. 이는 대장암의 발생기전과 관련 있는데, 대장암은 정상적인 대장상피 세포가 다양한 원인에 의해 진행선종(Advanced adenoma, AA)으로 발전하고 이 중 일부가 대장암(Colorectal Cancer, CRC)으로 발생한다고 알려져있다2). 따라서 진행선종과 대장암 발생 여부를 정기적으로 검진하여 조기 발견/처치하는 것이 대장암 예방에 매우 중요하다. 이에 현재 우리나라에서는 50세 이상의 남녀를 대상으로 국가적으로 대장암 검진 프로그램을 시행 중이다.
그러나, 현재 우리나라의 대장암 건강검진 수검률은 매우 낮은 상황으로 현재 우리나라의 경우 5대암(위암, 대장암, 간암, 유방암, 자궁경부암) 건강검진 수검률(검진대상자 수 대비 수검자 수) 중 2019년 기준 대장암 검진 수검률이 가장 낮아 41%에 그치고 있는 실정이다. 이렇듯 대장암 건강검진 수검률이 다른 주요 암보다 낮은 주요 원인은 현재 사용되는 대장암 선별검사법의 불편함에 있다고 보고 있다.
현재 사용되고 있는 대장암 선별검사와 관련하여 우리나라 대장암 검진 프로그램이 50세 이상의 남녀를 대상으로 1년의 주기마다 분변잠혈검사를 실시하고 있으며, 분변잠혈검사 결과 이상 소견이 있는 경우 대장내시경 검사 또는 대장이중조영검사를 진행하도록 권고하고 있다.
하지만, 메타분석에 의하면 분변잠혈반응검사의 대장암에 대한 검사 민감도 및 특이도는 각각 23~31% 및 90~95%인 반면, 진행선종에 대한 민감도는 각각 23~31%에 그치는 수준이다(Niedermaier, T., et al., Eur J Epidemiol, 2017. 32(6): p. 481-493). 또한 대장암의 출혈은 간헐적인 경우가 많아서, 분변잠혈검사를 위한 검체는 3회 연속적인 배변에서 한 번씩 세 번 검체를 채취해야 하는 것이 원칙이며 적절한 검체채취 여부에 따라서 검사의 정확도에 차이가 날 수 있다. 게다가 대변 검체에 대한 대상자들의 순응도는 매우 낮은 상황이다.
한편, 대장내시경 검사는 민감도와 특이도가 매우 높으며 검사와 진행선종의 적출이 검사 중 가능하다는 장점과 적출 조직을 이용한 조직검사를 가능하게 한다는 큰 장점이 있다. 그러나 대장내시경 검사는 장정결 정도가 검사의 정확도와 질에 매우 중요한 영향을 미치므로 전처치 과정중 하나인 장정결이 필수적으로 필요한데, 그 과정이 불편하여 대상자의 순응도가 떨어질 수 있다는 단점이 있다.
또한 대장내시경 검사 중 진행선종에 비해 대장암으로의 발전 가능성이 매우 낮은 비진행선종도 적출하게 되는 경우가 있어, 내시경 과정 중 대장에 천공이나 출혈 등을 유발할 수 있다는 문제점이 있다. 이에 대장내시경 검사가 필요한 대장암 및 진행선종 보유 위험군을 미리 선별하여 대장내시경이 꼭 필요한 사람만 대장내시경을 시행하는 것이 바람직하다는 의료 현장의 요구가 있는 실정이다.
혈액검사는 정기검진에 사용되는 대표적인 검체이며 환자의 불편함을 최소화하며 정기적인 검사가 가능한 점에서 매우 유용하다. 이에 혈액을 이용한 대장암 선별검사로 CEA 검사가 사용되고 있으나 현재 대장암 검출 민감도와 특이도가 각각 22~71%와 55~100%로 보고에 따라 다양하게 나타나고 있으며 진행선종 검출 민감도는 14%로 매우 낮아 대장용종 선별검사로는 사용하기 어려움이 있다.
따라서 분변잠혈검사에 비해 검사대상자의 순응도가 높으며 대장내시경에 비해 검사과정의 고통이 적고 불필요한 천공이나 출혈 등의 검사 위험도가 낮으면서도 대장암 및 진행선종의 검출 민감도가 높은 혈액을 이용한 대장암 선별검사법의 개발이 필요하다고 할 수 있다.
[선행 특허 문헌]
미국 특허공개번호 20180238893
본 발명은 상기의 문제점을 해결하고 상기의 필요성에 의해 안출된 것으로서 본 발명의 목적은 비교적 추출이 용이한 혈액 검체를 기반으로 민감도와 특이도가 높은 대장암 및 진행선종의 분자진단 검사법을 개발하기 위한 정보제공방법을 제공하는 것이다.
본 발명의 다른 목적은 비교적 추출이 용이한 혈액 검체를 기반으로 민감도와 특이도가 높은 대장암 및 진행 선종의 분자진단 검사용 키트를 제공하는 것이다.
상기의 목적을 달성하기 위하여 본 발명은 시료에서 MKi67, KRT19, EpCAM, TYMS, PPARG, MCAM, ANKHD1-EIF4EBP3, SNAI2, MMP23B, FOXA2. NPTN, GPR15, TERT, VIM, ERBB2 유전자 또는 그 유전자에 의해 인코딩되는 단백질의 상대적 발현량을 측정하고,
여기서, MKi67, KRT19 및 EpCAM 유전자 또는 그 유전자에 의하여 인코딩되는 단백질이 다른 유전자 또는 그 유전자에 의하여 인코딩되는 단백질에 비하여 높게 발현되면 정상군으로 판단하고,
TYMS, PPARG, MCAM, 및 ANKHD1-EIF4EBP3 유전자 또는 그 유전자에 의하여 인코딩되는 단백질이 다른 유전자 또는 그 유전자에 의하여 인코딩되는 단백질에 비하여 높게 발현되면 대장암군으로 판단하며,
SNAI2, MMP23B, 및 FOXA2 유전자 또는 그 유전자에 의하여 인코딩되는 단백질이 다른 유전자 또는 그 유전자에 의하여 인코딩되는 단백질에 비하여 높게 발현되면 진행 선종군 및 대장암군으로 판단하고,
NPTN, GPR15, TERT, VIM, ERBB2 유전자 또는 그 유전자에 의하여 인코딩되는 단백질이 다른 유전자 또는 그 유전자에 의하여 인코딩되는 단백질에 비하여 높게 발현되면 진행 선종군으로 판단하는 것을 특징으로 하는 대장암 및 진행선종군의 선별 방법을 제공한다.
본 발명에 따른 방법에 있어서, 상기 유전자 또는 상기 유전자에 의해 인코딩되는 단백질 발현 수준을 측정하는 방법은 공지의 기술을 이용하여 생물학적 시료로부터 mRNA 또는 단백질을 분리하는 공지의 공정을 포함하여 수행될 수 있다.
상기 생물학적 시료는 생체로부터 채취된 시료를 말하며, 상기 시료로는 혈액, 전혈, 혈청 또는 혈장을 예로 들 수 있다.
상기 유전자의 발현 수준 측정은 구체적으로 mRNA의 수준을 측정하는 것이며, mRNA의 수준을 측정하는 방법으로는 역전사 중합효소연쇄반응(RT-PCR),실시간 역전사 중합효소연쇄반응, RNase 보호 분석법, 노던 블랏 및 DNA 칩 등이 있으나, 이에 제한되지는 않는다.
상기 단백질 수준의 측정은 항체를 이용할 수 있는데, 이러한 경우, 생물학적 시료 내의 상기 단백질과 이에 특이적인 항체는 결합물, 즉, 항원-항체 복합체를 형성하며, 항원-항체 복합체의 형성량은 검출 라벨(detection label)의 시그널의 크기를 통해서 정량적으로 측정할 수 있다. 이러한 검출 라벨은 효소, 형광물질, 리간드, 발광물질, 미소입자(microparticle), 레독스 분자 및 방사선 동위원소로 이루어진 그룹 중에서 선택할 수 있으며, 이에 제한되는 것은 아니다. 단백질 수준을 측정하기 위한 분석 방법으로는, 이에 제한되지는 않으나, 웨스턴 블랏,ELISA, 방사선면역분석, 방사선 면역 확산법, 오우크테로니 면역 확산법, 로케트 면역전기영동, 조직면역 염색, 면역침전 분석법, 보체 고정분석법, FACS, 단백질칩 등이 있다.
따라서 본 발명은 상기와 같은 검출 방법들을 통하여, 대조군의 mRNA 또는 단백질 수준과 개체, 예컨대 검사 대상에서의 mRNA 또는 단백질 수준을 확인할 수 있고, 발현 양을 대조군과 비교함으로써 대장암 및/또는 이의 전암 단계를 진단할 수 있다.
본 발명에 있어서, 상기 유전자 또는 그 유전자에 의해 인코딩되는 단백질의 발현을 측정하는 방법은 프라이머 및 프로브를 이용하거나 항체를 이용하여 측정하는 것을 특징으로 하는 것이 바람직하나 이에 한정되지 아니한다.
본 발명의 일 구현예에 있어서, 상기 사용된 프라이머 및 프로브는 서열번호 1 내지 46에 기재된 서열로 이루어진 것이 바람직하나 이에 한정되지 아니한다.
또한 본 발명은 TYMS, PPARG, MCAM 및 ANKHD1-EIF4EBP3 유전자 또는 그 유전자에 의하여 인코딩되는 단백질의 상대적 발현량을 측정할 수 있는 물질을 포함하는 대장암 진단용 조성물.
본 발명의 일 구현예에 있어서, 상기 유전자의 상대적 발현량을 측정할 수 있는 물질은 프라이머 및 프로브 세트이고,
본 발명의 일 구현예에 있어서, 상기 프라이머 및 프로브 세트는 서열번호 1 내지 3, 서열번호 14 내지 16, 서열번호 17 내지 19 및 서열번호 26 내지 28에 기재된 서열로 이루어진 것이 바람직하나 이에 한정되지 아니한다.
또한 본 발명은 NPTN, GPR15, TERT, VIM 및 ERBB2 유전자 또는 그 유전자에 의하여 인코딩되는 단백질의 상대적 발현량을 측정할 수 있는 물질을 포함하는 진행 선종군 진단용 조성물을 제공한다.
본 발명의 일 구현예에 있어서, 상기 유전자의 상대적 발현량을 측정할 수 있는 물질은 프라이머 및 프로브 세트이고,
상기 프라이머 및 프로브 세트는 서열번호 10 내지 13, 서열번호 20 내지 22, 서열번호 35 내지 37, 서열번호 41 내지 43 및 서열번호 44 내지 46에 기재된 서열로 이루어진 것이 바람직하나 이에 한정되지 아니한다.
또 본 발명은
MKi67, KRT19 및 EpCAM 유전자 그 유전자에 의하여 인코딩되는 단백질의 상대적 발현량을 측정할 수 있는 물질,
TYMS, PPARG, MCAM 및 ANKHD1-EIF4EBP3 유전자 또는 그 유전자에 의하여 인코딩되는 단백질의 상대적 발현량을 측정할 수 있는 물질,
SNAI2, MMP23B, 및 FOXA2 유전자 또는 그 유전자에 의하여 인코딩되는 단백질의 상대적 발현량을 측정할 수 있는 물질, 및
NPTN, GPR15, TERT, VIM 및 ERBB2 유전자 또는 그 유전자에 의하여 인코딩되는 단백질의 상대적 발현량을 측정할 수 있는 물질을 포함하는 대장암 및 진행 선종군 선별 키트를 제공한다.
본 발명의 일 구현예에 있어서, 상기 유전자의 상대적 발현량을 측정할 수 있는 물질은 프라이머 및 프로브 세트이고,
본 발명의 일 구현예에 있어서, 상기 프라이머 및 프로브 세트는 서열번호 1 내지 46에 기재된 서열로 이루어진 것이 바람직하나 이에 한정되지 아니한다.
이하 본 발명을 설명한다.
본 발명에서는 혈액 내 해당 바이오 마커들의 상대적 발현양을 나타내기 위해 프라이머 및 프로브 서열을 제공한다.
또한 본 발명은 상기 15개 마커의 발현양을 대입하여 제작한 대장암 및 진행 선종 선별검사용 인공지능 예측 모델을 제공한다.
일반적으로 사용되는 전장 RNA (Total RNA)를 분리하는 방법 및 이로부터 cDNA를 합성하는 방법은 공지된 방법을 통해 수행될 수 있으며, 이 과정에 대한 자세한 설명은 Joseph Sambrook 등, Molecular Cloning, A Laboratory Manual, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. (2001); 및 Noonan, K.F. 등에 개시되어 있어 본 발명의 참조로서 삽입될 수 있다.
본 발명의 프라이머는 포스포르아미다이트 고체 지지체 방법, 또는 기타 널리 공지된 방법을 사용하여 화학적으로 합성할 수 있다. 이러한 핵산 서열은 또한 당해 분야에 공지된 많은 수단을 이용하여 변형시킬 수 있다.
이러한 변형의 비제한적인 예로는 메틸화, "캡화", 천연 클레오타이드 하나 이상의 동족체로의 치환, 및 뉴클레오타이드 간의 변형, 예를 들면, 하전되지 않은 결체(예: 메틸 포스포네이트, 포스포트리에스테르, 포스포로아미데이트, 카바메이트 등) 또는 하전된 결체(예: 포스포로티오에이트, 포스포로디티오에이트 등)로의 변형이 있다. 핵산은 하나 이상의 부가적인 공유 결합된 잔기, 예를 들면, 단백질(예: 뉴클레아제, 독소, 항체, 시그날 펩타이드, 리-L-리신 등), 삽입제(예: 아크리딘, 프소랄렌 등), 킬레이트화제(예: 금속, 방사성 금속, 철, 산화성 금속 등), 및 알킬화제를 함유할 수 있다.
본 발명의 핵산 서열은 또한 검출 가능한 시그널을 직접 또는 간접적으로 제공할 수 있는 표지를 이용하여 변형시킬 수 있다. 표지의 예로는 방사성 동위원소, 형광성 분자, 바이오틴 등이 있다.
본 발명의 방법에 있어서, 상기 증폭된 표적 서열은 검출가능한 표지 물질로 표지될 수 있다. 일 구현예에서, 상기 표지 물질은 형광, 인광, 화학발광단 또는 방사성을 발하는 물질일 수 있으나, 이에 제한되지 않는다. 바람직하게는, 상기 표지 물질은 플루오리신(fluorescein), 피코에리트린 (phycoerythrin), 로다민, 리사민 (lissamine) Cy-5 또는 Cy-3일 수 있다. 표적 서열의 증폭시 프라이머의 5'-말단 및/또는 3' 말단에 Cy-5 또는 Cy-3를 표지하여 RT-PCR을 수행하면 표적 서열이 검출 가능한 형광 표지 물질로 표지될 수 있다.
또한, 방사성 물질을 이용한 표지는 RT-PCR 수행시 32P 또는 35S 등과 같은 방사성 동위원소를 PCR 반응액에 첨가하면 증폭 산물이 합성되면서 방사성이 증폭 산물에 혼입되어 증폭 산물이 방사성으로 표지될 수 있다. 표적서열을 증폭하기 위해 이용된 하나 이상의 올리고뉴클레오티드 프라이머 세트를 이용할 수 있다.
표지는 형광, 방사능, 발색 측정, 중량 측정, X-선 회절 또는 흡수, 자기, 효소적 활성, 매스 분석, 결합 친화도, 혼성화 고주파, 나노크리스탈에 의하여 검출할 수 있는 시그널을 제공한다.
본 발명의 한 측면에 따르면, 본 발명에서는 RT-PCR을 통해 mRNA 수준에서 발현수준을 측정하게 된다. 이를 위하여 상기 PPARG 및 GAPDH 유전자 등에 특이적으로 결합하는 신규한 프라이머 쌍과 형광이 표지된 프로브가 요구되며, 본 발명에서 특정한 염기서열로 특정된 해당 프라이머 및 프로브를 사용할 수 있으나 이에 제한되는 것은 아니며, 이들 유전자에 특이적으로 결합하여 검출가능한 시그널을 제공하여 RT-PCR을 수행할 수 있는 것이면, 제한 없이 사용될 수 있다. 상기에서 FAM과 Quen(Quencher)는 형광염료를 의미한다.
본 발명에 적용되는 RT-PCR 방법은 당업계에서 통상적으로 사용되는 공지의 과정을 통해 수행될 수 있다.
mRNA 발현수준을 측정하는 단계는 통상의 mRNA 발현수준을 측정할 수 있는 방법이면 제한 없이 사용될 수 있으며, 사용한 프로브 표지의 종류에 따라 방사성 측정, 형광 측정 또는 인광 측정을 통해 수행될 수 있으나, 이에 제한되지 않는다.
증폭 산물을 검출하는 방법 중의 하나로서, 형광 측정 방법은 프라이머의 5'-말단에 Cy-5 또는 Cy-3를 표지하여 real-time RT-PCR을 수행하면 표적 서열이 검출 가능한 형광 표지 물질로 표지되며, 이렇게 표지된 형광은 형광 측정기를 이용하여 측정할 수 있다.
또한, 방사성 측정 방법은 RT-PCR 수행 시 32P 또는 35S 등과 같은 방사성 동위원소를 PCR 반응액에 첨가하여 증폭 산물을 표지한 후, 방사성 측정기구, 예를 들면, 가이거 계수기(Geiger counter) 또는 액체섬광계수기(liquid scintillation counter)를 이용하여 방사성을 측정할 수 있다.
본 발명의 바람직한 일구현예에 따르면, 상기 RT-PCR을 통해 증폭된 PCR 산물에 형광이 표지된 프로브가 붙어 특정 파장의 형광을 내게 되고, 증폭과 동시에 PCR 장치의 형광 측정기에서 본 발명의 유전자들의 mRNA 발현 수준을 실시간으로 측정하고, 측정된 값이 계산되어 PC를 통해 시각화 되게 되어 검사자는 쉽게 그 발현 정도를 확인할 수 있다.
본 발명의 다른 측면에 따르면 상기 선별 키트는 역전사 중합효소반응을 수행하기 위해 필요한 필수 요소를 포함하는 것을 특징으로 하는 대장암 및 대장용종 진단용 키트일 수 있다. 역전사 중합효소반응 키트는 상기 본 발명의 유전자에 대한 특이적인 각각의 프라이머 쌍을 포함할 수 있다. 프라이머는 각 마커 유전자의 핵산 서열에 특이적인 서열을 가지는 뉴클레오타이드로서, 약 7 bp 내지 50 bp의 길이, 보다 바람직하게는 약 10 bp 내지 30 bp 의 길이일 수 있다.
그 외 역전사 중합효소반응 키트는 테스트 튜브 또는 다른 적절한 컨테이너, 반응 완충액 (pH 및 마그네슘 농도는 다양), 데옥시뉴클레오타이드 (dNTPs), Taq-폴리머라아제 및 역전사효소와 같은 효소, DNAse, RNAse 억제제, DEPC-수 (DEPC-water), 멸균수 등을 포함할 수 있다.
또한, 본 발명의 키트는 최적의 반응 수행 조건을 기재한 사용자 안내서를 추가로 포함할 수 있다.
안내서는 키트 사용법, 예를 들면, 완충액 제조 방법, 제시되는 반응 조건 등을 설명하는 인쇄물이다.
안내서는 팜플렛 또는 전단지 형태의 안내 책자, 키트에 부착된 라벨, 및 키트를 포함하는 패키지의 표면상에 설명을 포함할 수 있다. 또한, 안내서는 인터넷과 같이 전기 매체를 통해 공개되거나 제공되는 정보를 포함할 수 있다.
본 발명에서 용어 "대장암 선별방법"은 진단을 위한 예비적 단계로서 암의 진단을 위하여 필요한 객관적인 기초정보를 제공하는 것이며 의사의 임상학적 판단 또는 소견은 제외된다.
용어 "프라이머"는 짧은 자유 3말단 수산화기를 가지는 핵산 서열로 상보적인 템플레이트 (template)와 염기쌍을 형성할 수 있고 템플레이트 가닥 복사를 위한 시작 지점으로 기능을 하는 짧은 핵산 서열을 의미한다. 프라이머는 적절한 완충용액 및 온도에서 중합반응 (즉, DNA 중합효소 또는 역전사효소) 을 위한 시약 및 상이한 4가지 뉴클레오사이드 트리포스페이트의 존재하에서 DNA 합성이 개시할 수 있다. 본 발명의 프라이머는, 각 마커 유전자 특이적인 프라이머로 7개 내지 50개의 뉴클레오타이드 서열을 가진 센스 및 안티센스 핵산이다. 프라이머는 DNA합성의 개시점으로 작용하는 프라이머의 기본 성질을 변화시키지 않는 추가의 특징을 혼입할 수 있다.
용어 "프로브"는 단일쇄 핵산 분자이며, 타깃 핵산 서열에 상보적인 서열을 포함한다.
용어 "실시간 역전사 중합효소 반응 (realtime RT-PCR)"이라 함은 역전사효소를 이용하여 RNA를 상보적인 DNA (cDNA) 로 역전사 시킨 후에 만들어진 cDNA를 주형 (template) 으로 하여 타겟 프라이머와 표지를 포함하는 타겟 프로브를 이용해 타겟을 증폭함과 동시에 증폭된 타겟에 타겟 프로프의 표지에서 발생하는 신호를 정량적으로 검출해 내는 분자생물학적 중합방법이다.
본 발명의 대장암 및 진행 선종군 예측에는 정보 학습을 통해 대장암 및 진행선종군을 진단하도록 할 수 있는 데이터 마이닝 방법이 사용될 수 있으며, 특히 AI 분석을 통해 효과적으로 개선할 수 있다. 따라서 본 발명의 대장암 및 진행선종군 진단 또는 예측 방법에는 바람직하게는 대장암 및 진행 선종군 진단 마커의 상대적 발현량을 측정할 수 있는 방법 및/또는 AI 분석 방법이 사용될 수 있다.
본 발명에 있어 대장암 및 진행선종군 예측 모델에 AI 분석을 이용하는 경우, 다양한 해석 가능한 모델을 제한없이 이용할 수 있으며, 선형 회귀, 로지스틱 회귀, 신경망 분석, 의사결정나무, 결정 규칙, 룰핏, 서포트 벡터 머신과 같은 모델을 제한없이 적용가능하고, 본 발명의 바람직한 구현예에서는 특히 로지스틱 회귀 분석, 의사결정 나무, 신경망 분석 및 서포트 벡터 머신을 이용하였다.
한편 본 발명의 예측 모델은 대장암 및 진행 선종군 진단부, 분류부 및 가중치 부여부를 포함할 수 있으며, 상기 대장암 및 진행 선종군 진단부는 환자의 해당 질환 관련 유전자 마커의 상대적 발현량 정보 수신부에서 수신된 상대적 발현량 정보를 입력정보로 하고, 상기 대장 관련 질환 분류부는 신경망을 분류기로 하여 대장암 및 대장용종을 분류하는 과정을 수행할 수 있고, 상기 가중치 부여부는 분류 결과에 대하여 가중치를 부여함으로써 대장암 및 진행선종군을 선별할 수 있다.
본 발명의 실시예들에 따른 신경망분석은, 하나 이상의 레이어(Layer)를 구축하여 복수의 데이터를 바탕으로 판단을 수행하는 시스템을 의미한다. 예를 들어, 신경망 분석은 입력 층은 유전자 마커의 상대적 발현량 정보를 신경망 분석 모델에 데이터로서 넣어주는 층이며, 출력 층은 입력된 여러 정보를 바탕으로 대장암 및 대장용종 질환 환자의 유무를 판단해 줄 수 있는 결과를 내주는 층이다. 숨김층은 여러가지 판단기준 (유전자 돌연변이 정보)에 대한 가중치를 부여하여 환자 유무를 결정할 수 있는 process를 진행하는 층이다.
본 발명의 실시예에 따른 AI 분석 기법을 이용한 대장암 및 대장용종 예측 방법은 MLP 신경망을 이용하여, 상기 숨김 노드의 수를 가지는 신경망 분석 모형을 추정한다. 또한, 입력변수와 출력변수의 다양한 변수변환을 통하여 구축된 여러 개의 신경망 모형 중 각 모형으로부터 추정된 정확도가 가장 높은 신경망 모형을 피부질환 예측을 위한 최종 신경망 모형으로 결정한다. 상기 AI 분석은 입력 층, 숨김층, 및 출력 층으로 구성될 수 있으며, 상기 신경망 분석 단계를 통한 신경망 분석 모형은 몇 개의 숨김층에 몇 개의 숨김 노드를 가지는 신경망 모형일 수 있다.
본 발명을 통하여 알 수 있는 바와 같이, 본 발명은 비교적 추출이 용이한 혈액 검체를 이용하여 혈액에서 발현하는 유전자 마커들의 발현 양상을 인공지능 알고리즘에 대입하여 대장암 및 진행 선종을 선별하는 데에 도움을 줄 수 있다.
도 1은 유전자의 그룹별 발현 패턴을 나타내는 Heatmap을 나타낸 그림,
도 2는 본 발명의 실시예의 모델 구축 및 성능 확인 개요를 나타낸 그림,
도 3은 Test set에서의 ROC Curve 및 PR Curve를 나타낸 그림이고,
도 4는 본 발명의 비교예의 모델 구축 및 성능 확인 개요를 나타낸 그림.
이하 비한정적인 실시예를 통하여 본 발명을 더욱 상세하게 설명한다. 단 하기 실시예는 본 발명을 예시하기 위한 의도로 기재한 것으로서 본 발명의 범위는 하기 실시예에 의하여 제한되는 것으로 해석되지 아니한다.
실시예 1; 검체(clinical specimen) 수집
2017년부터 2022년까지 신촌세브란스병원 (승인번호 4-2017-0148), 강남세브란스병원(승인번호 3-2017-0024), 강북삼성병원(승인번호 2017-02-022-009)의 소화기 내과에서, 원주세브란스기독병원 건강진단센터(승인번호 CR319115)에서 각 기관의 생명윤리심의위원회(IRB)의 승인을 받아 대장내시경 검사가 예정된 대상자들의 혈액 샘플을 수집하였다. 혈액은 Tempus blood tube (Applied Biosystems®를 이용하여 총 3 ml을 채혈하였다. 대상자들은 대장내시경 검사의 결과를 통해 다음과 같이 분류되었다 (표 1)
분류 분류기준 검체 수 (명)
대장암군 대장내시경 결과, 대장 내 암이 있는 대상자 148
진행선종군 대장내시경 결과, 대장 내 진행선종이 있는 대상자 289
정상군 대장내시경 결과, 대장 내 병변이 없는 대상자 142
총합 579
표 1은 대장내시경 결과에 따른 대상자들 분류 및 검체 수
실시예 2: 혈액 검체에서 Total RNA 분리
Tempus tube로 채혈된 혈액검체로부터 Tempus blood RNA isolation kit (Applied Biosystems®를 이용하여 Total RNA를 분리한다.
실시예 3: 분리된 total RNA로부터 cDNA 제작 및 qPCR 수행
i. complementary DNA (cDNA) 합성
분리된 total RNA 1.5~4.5 ug, Random primer (3 ug/uL) (Invitrogen) 2.5 uL, dNTP 혼합물 (2.5 mM each) (Intron) 2.5 uL, M-MLV 역전사 중합효소 (200 U/uL) (Invitrogen) 2.5 uL, 5× First-strand buffer (250 mM Tris-HCl) (Invitrogen) 10 μL, Dithiothreitol (0.1 M) (Invitrogen) 5 μL를 첨가하고 최종부피를 50㎕ 가 되도록 Ultrapure water를 넣고 잘 섞은 후 합성 반응액을 thermocycler (Applied Biosystems)에서 25℃,30분 - 37℃.50분 - 70℃, 15분 반응시켜 cDNA를 합성하였다.
ii. Quantitative polymerase chain reaction (qPCR) 수행
qPCR 반응물의 조성은 THUNDERBIRD®Probe qPCR Mix (TOYOBO) 10㎕와 Forward / Reverse Primer, Probe (10 pmole/uL) 1 uL을 넣어주고 합성한 cDNA를 2 uL 넣고 최종 부피가 20㎕ 되도록 Ultrapure water 를 넣어 섞어준다. qPCR 반응은 CFX96 (Biorad) 를 이용하였으며 반응 온도 조건은 다음과 같다. 95℃3분 후 95℃3초 - 60℃30초를 40회 반복하여 수행하였다. Annealing 과정 (60℃30초) 이 한번 수행될 때마다 형광을 측정하는 과정을 추가하여, 횟수 별로 증가되는 형광 값을 측정하였다. 일정한 형광값을 Threshold로 설정하여 Threshold에 도달하는 시점의 cycle 수인 Cq 값을 도출하였다.
실시예 4: 결과 확인 및 표적 유전자의 상대 발현양 분석
Endogenous control로 이용된 GAPDH 유전자의 Cq 값을 이용하여 표적 유전자의 Cq 값을 이용하여 표적 유전자의 상대발현양(2-ΔCq)을 계산한다. 표적으로 하는 유전자의 목록은 다음과 같다 (표 2).
[관계식]
2-ΔCq = 2-(표적 유전자 Cq - GAPDH 유전자 Cq)
일련번호 혈중 유전자 마커
1 ANKHD1-EIF4EBP3 ANKHD1-EIF4EBP3 Readthrough
2 EpCAM Epithelial Cell Adhesion Molecule
3 ERBB2 Erb-B2 Receptor Tyrosine Kinase 2
4 FOXA2 Forkhead Box A2
5 GPR15 G Protein-Coupled Receptor 15
6 KRT19 Keratin 19
7 MCAM Melanoma Cell Adhesion Molecule
8 MKi67 Marker Of Proliferation Ki-67
9 MMP23B Matrix Metallopeptidase 23B
10 NPTN Neuroplastin
11 PPARG Peroxisome Proliferator Activated Receptor Gamma
12 SNAI2 Snail Family Transcriptional Repressor 2
13 TERT Telomerase Reverse Transcriptase
14 TYMS Thymidylate Synthetase
15 VIM Vimentin
표 2는 표적 혈중 유전자 마커 목록
해당 유전자들의 그룹별 상대발현양을 비교하기 위하여 Statistical R software (version 3.6.3)의 pheatmap package (version 1.0.12)를 이용하여 각 유전자의 그룹별 상대발현 양 평균 기반 Heatmap을 구축하였다 (그림 1). Heatmap 구축 시, Z-score에 따라 색깔이 표시되게 되며 각 유전자의 그룹별 Z-score 계산식은 다음과 같다. Z-score가 낮을수록 다른 그룹에 비해 발현이 낮게 나타나고 Z-score가 높을수록 다른 그룹 대비 발현이 높게 나타남을 의미한다.
[관계식]
Z-score = (해당 그룹의 발현양 - 전체 그룹에서의 발현양 평균) / (전체 그룹 간 표준편차)
그 결과, 3개의 유전자는 다른 그룹 대비 정상군에서 높게 발현하였고 (MKi67, KRT19, EpCAM) 4개의 유전자는 다른 그룹 대비 대장암군에서 높게 발현하였고 (TYMS, PPARG, MCAM, ANKHD1-EIF4EBP3) 3개의 유전자는 다른 그룹 대비 진행선종군 및 대장암군에서 높게 발현하였고 (SNAI2, MMP23B, FOXA2) 5개 유전자는 진행 선종군에서 높게 발현하는 (NPTN, GPR15, TERT, VIM, ERBB2) 패턴을 확인하였다.
실시예 5: 표적 유전자의 상대발현양을 대입한 대장암 및 진행선종 스크리닝 목적의 분류 모델 구축
Statistical R software (version 3.6.3)의 H2O package (version 3.32.1.3)를 이용하여 인공지능 알고리즘 기반의 분류 모델을 구축하였다. 대장암 및 진행선종 진단 예측 모델의 제작은 Deep neural network (DNN), Generalized linear model (GLM), Random forest (RF), Gradient boosting machine (GBM) 알고리즘을 기반으로 하였고 추가적으로 여러 종류의 모델 (GLM, RF, DNN, GBM, stacked ensemble (SE)) 중 데이터에 적합한 모델을 구축하는 Automated machine learning (AutoML) 방법을 접목하여 수행되었으나 이에 한정되지 않는다.
전체 샘플을 Training set와 Test set으로 나누고 Training set 결과를 대입하여 정상군 대비 대장암군과 진행선종군을 구분할 수 있는 인공지능 알고리즘 기반 분류모델을 구축하고 구축된 모델의 성능을 Test set을 이용하여 평가한다 (그림 2).
Training set를 이용하여 모델을 구축할 때 5-fold cross-validation 기법을 접목하여 Training set가 5개의 영역으로 구분되어 모델을 학습함과 동시에 각 영역을 이용하여 모델의 성능을 검증하여 높은 성능의 모델을 구축하고자 하였다.
인공지능 분류 모델의 성능은 분류모델의 대표적인 성능지표인 AUROC, AUPRC 값을 기반으로 Training set와 Test set의 AUROC, AUPRC 값을 통하여 판단하였다. 그 중에서도 모델 학습에 이용되지 않은 새로운 Test set의 성능을 기준으로 가장 성능이 좋은 모델을 선정하였다.
각 알고리즘을 기반으로 구축된 GLM, DNN, GBM, RF 모델과 AutoML을 통해 구축된 SE 모델의 AUROC, AUPRC 값은 다음과 같다 (표 3). 그 결과, SE 모델에서 Test set 기준으로 AUROC, AUPRC 지표가 가장 높았다 (그림 3).
모델 Training set Test set
AUROC AUPRC AUROC AUPRC
GLM 0.91 0.97 0.87 0.96
RF 0.92 0.97 0.95 0.98
DNN 0.90 0.96 0.90 0.97
GBM 1.00 1.00 0.95 0.99
AutoML (SE) 1.00 1.00 0.97 0.99
표 3은 Training set와 Test set에서의 AUROC 및 AUPRC 성능 지표
SE 모델에서 그룹별 민감도 및 특이도를 확인해 본 결과, 표 4에 나타낸 바와 같이 대장암군을 구분하는 민감도는 91.9%, 진행 선종군을 구분하는 민감도는 92.6%이었고 정상군을 구분하는 특이도는 91.7%이었다.
분류 Test set 결과
(총 154명)
양성 (명) 음성 (명) 민감도 (%) 특이도 (%)
대장암군+진행선종군
(n = 118)
110 8 92.4
대장암군
(n = 37)
34 3 91.9
진행선종군(n = 81) 75 6 92.6
정상군
(n = 36)
3 33 91.7
표 4는 SE 모델의 그룹별 민감도 및 특이도 결과
Target gene Primer and TaqMan probe 서열번호 Primer's and Taqman probe's sequence
(5' --> 3')
PCR product (bp)
PPARG Forward 1 CCC TTC ACT ACT GTT GAC TTC TC 133
Taqman probe 2 FAM-TCA CAA GAA CAG ATC CAG TGG TTG CA-BHQ1
Reverse 3 CTT TGA TTG CAC TTT GGT ACT CTT
KRT19 Forward 4 GAT GAG CAG GTC CGA GGT TA 96
Taqman probe 5 FAM-CTG CGG CGC ACC CTT CAG GGT CT-BHQ1
Reverse 6 TCT TCC AAG GCA GCT TTC AT
EpCAM Forward 7 GCC AGT GTA CTT CAG TTG GTG CAC 82
Taqman probe 8 FAM-TAC TGT CAT TTG CTC AAA GCT GGC TGC CA-BHQ1
Reverse 9 CAT TTC TGC CTT CAT CAC CAA ACA
ERBB2 Forward 10 AAG CAT ACG TGA TGG CTG GTG T 115
Taqman probe1 11 FAM-ATA TGT CTC CCG CCT TCT GGG CAT CT-BHQ1
Taqman probe2 12 FAM-CAT CCA CGG TGC AGC TGG TGA CAC A-BHQ1
Reverse 13 TCT AAG AGG CAG CCA TAG GGC ATA
MCAM Forward 14 TTC TGA AGT GCG GCC TCT CC 74
Taqman probe 15 FAM-TCC CAA GGC AAC CTC AGC CAT GTC G-BHQ1
Reverse 16 CGC TTC TCC TTG TGG ACA GAA AAC
ANKHD1
-EIF4EBP3
Forward 17 TTCAGTCCCTGCTCTCAAA 108
Taqman probe 18 FAM-ACCGAAGAAGAGAATTGGACGGCC-BHQ1
Reverse 19 ATCCTGGTGCCTCTGGTTA
GPR15 Forward 20 CTG TGT CAA CCC TTT CAT TTA C 106
Taqman probe 21 FAM-CAT TGT CCA CTG CTT GTG CCC TTG-BHQ1
Reverse 22 GTG CTA CTC CCA AAG TCA TAG
MMP23B Forward 23 ACC TCC GGA TAG GCT TCT A 136
Taqman probe 24 FAM-ATCAACCACACGGACTGCCTGG-BHQ1
Reverse 25 CTG TCG TCG AAG TGG ATG C
TYMS Forward 26 CTGAAGCCAGGTGACTTTATAC 90
Taqman probe 27 FAM-ACCTGAATCACATCGAGCCACTGA-BHQ1
Reverse 28 TTCTCGCTGAAGCTGAATTT
FOXA2 Forward 29 CTA CTC CTC CGT GAG CAA CAT GAA C 74
Taqman probe 30 FAM-GCC TGG GGA TGA ACG GCA TGA ACA C-BHQ1
Reverse 31 GCC GCC GAC ATG CTC ATG TA
MKI67 Forward 32 TAA TGA GAG TGA GGG AAT ACC TTT G 87
Taqman probe 33 FAM-GGC GTG TGT CCT TTG GTG GGC A-BHQ1
Reverse 34 AGG CAA GTT TTC ATC AAA TAG TTC A
NPTN Forward 35 ACC AGT GAA GAG GTC ATT ATT CGA GAC A 88
Taqman probe 36 FAM-CCT GTT CTC CCT GTC ACC CTG CAG TGT AAC-BHQ1
Reverse 37 TAT GTA AGG GTG TGA GAG CTG GAG GT
SNAI2 Forward 38 TGT GAC AAG GAA TAT GTG AGC CTG G 81
Taqman probe 39 FAM-CCT GAA GAT GCA TAT TCG GAC CCA CAC ATT-BHQ1
Reverse 40 CGC AGA TCT TGC AAA CAC AAG G
TERT Forward 41 TGA CGT CCA GAC TCC GCT TCA T 83
Taqman probe 42 FAM-GCT GCG GCC GAT TGT GAA CAT GGA-BHQ1
Reverse 43 ACG TTC TGG CTC CCA CGA CGT A
VIM
Forward 44 ATG TTG ACA ATG CGT CTC TGG CA 99
Taqman probe 45 FAM-TGA CCT TGA ACG CAA AGT GGA ATC TTT GC-BHQ1
Reverse 46 ATT TCC TCT TCG TGG AGT TTC TTC AAA
GAPDH Forward 47 CCA TCT TCC AGG AGC GAG ATC C 90
Taqman probe 48 FAM-TCC ACG ACG TAC TCA GCG CCA GCA-BHQ1
Reverse 49 ATG GTG GTG AAG ACG CCA GTG
표 5는 본 발명에서 사용된 마커 전체에 대한 프라이머 및 프로브 서열의 리스트
비교예
대장암 또는 대장암의 전구병변인 진행 선종에서는 혈액 내 순환암세포 (Circulating tumor cell) 가 존재할 수 있고 이에 따라 순환암세포에서 상대발현양이 변화하는 것으로 알려진 10개 유전자 (EpCAM, ERBB2, FOXA2, KRT19, MCAM, MKi67, NPTN, SNAI2, TERT, VIM)를 표적으로 그룹별 상대발현양을 구하고 정상군으로부터 대장암 또는 진행선종을 구분하는 인공지능 알고리즘 기반 모델을 구축하였다.
검체(clinical specimen) 수집
2017년부터 2022년까지 신촌세브란스병원 (승인번호 4-2017-0148), 강남세브란스병원(승인번호 3-2017-0024), 강북삼성병원(승인번호 2017-02-022-009)의 소화기 내과에서, 원주세브란스기독병원 건강진단센터(승인번호 CR319115)에서 각 기관의 생명윤리심의위원회(IRB)의 승인을 받아 대장내시경 검사가 예정된 대상자들의 혈액 샘플을 수집하였다. 혈액은 Tempus blood tube (Applied Biosystems®를 이용하여 총 3 ml을 채혈하였다. 대상자들은 대장내시경 검사의 결과를 통해 다음과 같이 분류되었다 (표 6)
분류 분류기준 검체 수 (명)
대장암군 대장내시경 결과, 대장 내 암이 있는 대상자 148
진행선종군 대장내시경 결과, 대장 내 진행선종이 있는 대상자 289
정상군 대장내시경 결과, 대장 내 병변이 없는 대상자 142
총합 579
표 6은 대장내시경 결과에 따른 대상자들 분류 및 검체 수
혈액 검체에서 Total RNA 분리
Tempus tube로 채혈된 혈액검체로부터 Tempus blood RNA isolation kit (Applied Biosystems®를 이용하여 Total RNA를 분리한다.
분리된 total RNA로부터 cDNA 제작 및 qPCR 수행
i. complementary DNA (cDNA) 합성
분리된 total RNA 1.5~4.5 ug, Random primer (3 ug/uL) (Invitrogen) 2.5 uL, dNTP 혼합물 (2.5 mM each) (Intron) 2.5 uL, M-MLV 역전사 중합효소 (200 U/uL) (Invitrogen) 2.5 uL, 5× First-strand buffer (250 mM Tris-HCl) (Invitrogen) 10 μL, Dithiothreitol (0.1 M) (Invitrogen) 5 μL를 첨가하고 최종부피를 50㎕ 가 되도록 Ultrapure water를 넣고 잘 섞은 후 합성 반응액을 thermocycler (Applied Biosystems)에서 25℃,30분 - 37℃,50분 - 70℃,15분 반응시켜 cDNA를 합성하였다.
ii. Quantitative polymerase chain reaction (qPCR) 수행
qPCR 반응물의 조성은 THUNDERBIRD®Probe qPCR Mix (TOYOBO) 10㎕와 Forward / Reverse Primer, Probe (10 pmole/uL) 1 uL을 넣어주고 합성한 cDNA를 2 uL 넣고 최종 부피가 20㎕ 되도록 Ultrapure water 를 넣어 섞어준다. qPCR 반응은 CFX96 (Biorad) 를 이용하였으며 반응 온도 조건은 다음과 같다. 95℃, 3분 후 95℃, 3초 - 60℃,30초를 40회 반복하여 수행하였다. Annealing 과정 (60℃, 30초) 이 한번 수행될 때마다 형광을 측정하는 과정을 추가하여, 횟수 별로 증가되는 형광 값을 측정하였다. 일정한 형광값을 Threshold로 설정하여 Threshold에 도달하는 시점의 cycle 수인 Cq 값을 도출하였다.
결과 확인 및 표적 유전자의 상대 발현양 분석
Endogenous control로 이용된 GAPDH 유전자의 Cq 값을 이용하여 표적 유전자의 Cq 값을 이용하여 표적 유전자의 상대발현양(2-ΔCq)을 계산한다. 표적으로 하는 유전자의 목록은 다음과 같다 (표 7).
[관계식]
2-ΔCq = 2-(표적 유전자 Cq - GAPDH 유전자 Cq)
일련번호 혈중 유전자 마커
1 EpCAM Epithelial Cell Adhesion Molecule
2 ERBB2 Erb-B2 Receptor Tyrosine Kinase 2
3 FOXA2 Forkhead Box A2
4 KRT19 Keratin 19
5 MCAM Melanoma Cell Adhesion Molecule
6 MKi67 Marker Of Proliferation Ki-67
7 NPTN Neuroplastin
8 SNAI2 Snail Family Transcriptional Repressor 2
9 TERT Telomerase Reverse Transcriptase
10 VIM Vimentin
표 7은 표적 혈중 유전자 마커 목록
표적 유전자의 상대발현양을 대입한 대장암 및 진행 선종 스크리닝 목적의 분류 모델 구축
Statistical R software (version 3.6.3)의 H2O package (version 3.32.1.3)를 이용하여 인공지능 알고리즘 기반의 분류 모델을 구축하였다. 대장암 및 진행선종 진단 예측 모델의 제작은 Deep neural network (DNN), Generalized linear model (GLM), Random forest (RF), Gradient boosting machine (GBM) 알고리즘을 기반으로 하였고 추가적으로 여러 종류의 모델 (GLM, RF, DNN, GBM, stacked ensemble (SE)) 중 데이터에 적합한 모델을 구축하는 Automated machine learning (AutoML) 방법을 접목하여 수행되었으나 이에 한정되지 않는다.
전체 샘플을 Training set와 Test set으로 나누고 Training set 결과를 대입하여 정상군 대비 대장암군과 진행선종군을 구분할 수 있는 인공지능 알고리즘 기반 분류모델을 구축하고 구축된 모델의 성능을 Test set을 이용하여 평가한다 (도 4). Training set를 이용하여 모델을 구축할 때 5-fold cross-validation 기법을 접목하여 Training set가 5개의 영역으로 구분되어 모델을 학습함과 동시에 각 영역을 이용하여 모델의 성능을 검증하여 높은 성능의 모델을 구축하고자 하였다.
인공지능 분류 모델의 성능은 분류모델의 대표적인 성능지표인 AUROC, AUPRC 값을 기반으로 Training set와 Test set의 AUROC, AUPRC 값을 통하여 판단하였다. 그 중에서도 모델 학습에 이용되지 않은 새로운 Test set의 성능을 기준으로 가장 성능이 좋은 모델을 선정하였다. 각 알고리즘을 기반으로 구축된 GLM, DNN, GBM, RF 모델과 AutoML을 통해 구축된 SE 모델의 AUROC, AUPRC 값은 다음과 같다 (표 8). 그 결과, RF, GBM 모델에서 Test set 기준으로 AUROC, AUPRC 지표가 가장 높았다
모델 Training set Test set
AUROC AUPRC AUROC AUPRC
GLM 0.91 0.96 0.86 0.96
RF 0.90 0.96 0.94 0.98
DNN 0.99 1.00 0.92 0.97
GBM 1.00 1.00 0.94 0.98
AutoML (SE) 0.98 0.99 0.91 0.97
표 8은 Training set와 Test set에서의 AUROC 및 AUPRC 성능 지표
RF 모델과 GBM 모델에서 그룹별 민감도 및 특이도를 확인해 본 결과, RF 모델에서 대장암군을 구분하는 민감도는 81.8%, 진행선종군을 구분하는 민감도는 86.4%이었고 (표 9) 정상군을 구분하는 특이도는 83.3%이었고 GBM 모델에서 대장암군을 구분하는 민감도는 78.4%, 진행선종군을 구분하는 민감도는 88.9%이었고 정상군을 구분하는 특이도는 80.6%이었다 (표 10). 따라서, 대장암을 구분하는 민감도와 정상군을 구분하는 특이도가 더 높은 RF 모델이 선정되었다.
분류 Test set 결과
(총 154명)
양성 (명) 음성 (명) 민감도 (%) 특이도 (%)
대장암군+진행선종군
(n = 118)
100 18 84.7
대장암군
(n = 37)
30 7 81.1
진행선종군(n = 81) 70 11 86.4
정상군
(n = 36)
6 30 83.3
표 9는 RF 모델의 그룹별 민감도 및 특이도 결과
분류 Test set 결과
(총 154명)
양성 (명) 음성 (명) 민감도 (%) 특이도 (%)
대장암군+진행선종군
(n = 118)
101 17 85.6
대장암군
(n = 37)
29 8 78.4
진행선종군(n = 81) 72 9 88.9
정상군
(n = 36)
7 29 80.6
표 10은 GBM 모델의 그룹별 민감도 및 특이도 결과

Claims (12)

  1. 시료에서 MKi67, KRT19, EpCAM, TYMS, PPARG, MCAM, ANKHD1-EIF4EBP3, NPTN, GPR15, TERT, VIM, ERBB2 및 GAPDH 유전자 또는 그 유전자에 의해 인코딩되는 단백질의 상대적 발현량을 측정하고,
    여기서, MKi67, KRT19 및 EpCAM 유전자 또는 그 유전자에 의하여 인코딩되는 단백질이 다른 유전자 또는 그 유전자에 의하여 인코딩되는 단백질에 비하여 높게 발현되면 정상군으로 판단하고,
    TYMS, PPARG, MCAM, 및 ANKHD1-EIF4EBP3 유전자 또는 그 유전자에 의하여 인코딩되는 단백질이 다른 유전자 또는 그 유전자에 의하여 인코딩되는 단백질에 비하여 높게 발현되면 대장암군으로 판단하며,
    NPTN, GPR15, TERT, VIM, ERBB2 유전자 또는 그 유전자에 의하여 인코딩되는 단백질이 다른 유전자 또는 그 유전자에 의하여 인코딩되는 단백질에 비하여 높게 발현되면 진행선종군으로 판단하는 것을 특징으로 하며,
    여기서, 상대적 발현양은 2-ΔCq 로 표시되며, 2-ΔCq 는 하기 관계식에 의하여 구할 수 있으며,
    [관계식]
    2-ΔCq = 2-(표적 유전자 Cq - GAPDH 유전자 Cq)
    여기서, 표적유전자는 MKi67, KRT19, EpCAM, TYMS, PPARG, MCAM, ANKHD1-EIF4EBP3, NPTN, GPR15, TERT, VIM, ERBB2이며, Cq 값은 일정한 형광값을 역치(Threshold)로 설정하여 이 역치에 도달하는 시점의 사이클(cycle) 수를 의미하는 것을 특징으로 하는,
    대장암 및 진행 선종군의 선별 방법.
  2. 제1항에 있어서, 상기 유전자 또는 그 유전자에 의해 인코딩되는 단백질의 발현을 측정하는 방법은 프라이머 및 프로브를 이용하거나 또는 항체를 이용하여 측정하는 것을 특징으로 하는 대장암 및 진행 선종군의 선별 방법.
  3. 제2항에 있어서, 상기 사용된 프라이머 및 프로브는 서열번호 1 내지 22, 서열번호 26 내지 28, 서열번호 32 내지 37, 서열번호 41 내지 46 및 서열번호 47 내지 49에 기재된 서열로 이루어진 대장암 및 진행 선종군의 선별 방법.
  4. TYMS, PPARG, MCAM, ANKHD1-EIF4EBP3 및 GAPDH 유전자 또는 그 유전자에 의하여 인코딩되는 단백질의 상대적 발현량을 측정할 수 있는 물질을 포함하며,
    여기서, 상대적 발현양은 2-ΔCq 로 표시되며, 2-ΔCq 는 하기 관계식에 의하여 구할 수 있으며,
    [관계식]
    2-ΔCq = 2-(표적 유전자 Cq - GAPDH 유전자 Cq)
    여기서, 표적유전자는 TYMS, PPARG, MCAM, ANKHD1-EIF4EBP3 이며, Cq 값은 일정한 형광값을 역치(Threshold)로 설정하여 이 역치에 도달하는 시점의 사이클(cycle) 수를 의미하는 것을 특징으로 하는, 대장암 진단용 조성물.
  5. 제4항에 있어서, 상기 유전자의 상대적 발현량을 측정할 수 있는 물질은 프라이머 및 프로브 세트 또는 항체인 대장암 진단용 조성물.
  6. 제5항에 있어서, 상기 프라이머 및 프로브 세트는 서열번호 1 내지 3, 서열번호 14 내지 16, 서열번호 17 내지 19, 서열번호 26 내지 28 및 서열번호 47 내지 49에 기재된 서열로 이루어진 대장암 진단용 조성물.
  7. NPTN, GPR15, TERT, VIM, ERBB2 및 GAPDH 유전자 또는 그 유전자에 의하여 인코딩되는 단백질의 상대적 발현량을 측정할 수 있는 물질을 포함하며,
    여기서, 상대적 발현양은 2-ΔCq 로 표시되며, 2-ΔCq 는 하기 관계식에 의하여 구할 수 있으며,
    [관계식]
    2-ΔCq = 2-(표적 유전자 Cq - GAPDH 유전자 Cq)
    여기서, 표적유전자는 NPTN, GPR15, TERT, VIM 및 ERBB2 이며, Cq 값은 일정한 형광값을 역치(Threshold)로 설정하여 이 역치에 도달하는 시점의 사이클(cycle) 수를 의미하는 것을 특징으로 하는,
    진행 선종군 진단용 조성물.
  8. 제7항에 있어서, 상기 유전자의 상대적 발현량을 측정할 수 있는 물질은 프라이머 및 프로브 세트 또는 항체인 진행 선종군 진단용 조성물.
  9. 제8항에 있어서, 상기 프라이머 및 프로브 세트는 서열번호 10 내지 13, 서열번호 20 내지 22, 서열번호 35 내지 37, 서열번호 41 내지 43, 서열번호 44 내지 46 및 서열번호 47 내지 49에 기재된 서열로 이루어진 진행 선종군 진단용 조성물.
  10. MKi67, KRT19 및 EpCAM 유전자 또는 그 유전자에 의하여 인코딩되는 단백질의 상대적 발현량을 측정할 수 있는 물질,
    TYMS, PPARG, MCAM 및 ANKHD1-EIF4EBP3 유전자 또는 그 유전자에 의하여 인코딩되는 단백질의 상대적 발현량을 측정할 수 있는 물질,
    NPTN, GPR15, TERT, VIM 및 ERBB2 유전자 또는 그 유전자에 의하여 인코딩되는 단백질의 상대적 발현량을 측정할 수 있는 물질, 및
    GAPDH 유전자 또는 그 유전자에 의하여 인코딩되는 단백질의 상대적 발현량을 측정할 수 있는 물질을 포함하며,
    여기서, 상대적 발현양은 2-ΔCq 로 표시되며, 2-ΔCq 는 하기 관계식에 의하여 구할 수 있으며,
    [관계식]
    2-ΔCq = 2-(표적 유전자 Cq - GAPDH 유전자 Cq)
    여기서, 표적유전자는 MKi67, KRT19, EpCAM, TYMS, PPARG, MCAM, ANKHD1-EIF4EBP3, NPTN, GPR15, TERT, VIM, ERBB2이며, Cq 값은 일정한 형광값을 역치(Threshold)로 설정하여 이 역치에 도달하는 시점의 사이클(cycle) 수를 의미하는 것을 특징으로 하는,
    대장암 및 진행선종군 선별 키트.
  11. 제10항에 있어서, 상기 유전자의 상대적 발현량을 측정할 수 있는 물질은 프라이머 및 프로브 세트 또는 항체인 대장암 및 진행선종군 선별 키트.
  12. 제11항에 있어서, 상기 프라이머 및 프로브 세트는 서열번호 1 내지 22, 서열번호 26 내지 28, 서열번호 32 내지 37, 서열번호 41 내지 46 및 서열번호 47 내지 49에 기재된 서열로 이루어진 대장암 및 진행선종군 선별 키트.
KR1020220170535A 2021-12-31 2022-12-08 대장암 및 진행 선종의 선별 검사 방법 및 그 응용 KR102548873B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202280044267.3A CN117545856A (zh) 2021-12-31 2022-12-16 大肠癌及晚期腺瘤的筛查方法及其应用
PCT/KR2022/020609 WO2023128429A1 (ko) 2021-12-31 2022-12-16 대장암 및 진행 선종의 선별 검사 방법 및 그 응용
CA3185536A CA3185536A1 (en) 2021-12-31 2022-12-21 A method for sorting colorectal cancer and advanced adenoma and use of the same
US18/088,405 US20230212692A1 (en) 2021-12-31 2022-12-23 Method for sorting colorectal cancer and advanced adenoma and use of the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210193852 2021-12-31
KR20210193852 2021-12-31

Publications (1)

Publication Number Publication Date
KR102548873B1 true KR102548873B1 (ko) 2023-06-29

Family

ID=86945960

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020220163338A KR20230104517A (ko) 2021-12-31 2022-11-29 대장암 및 대장 용종 또는 진행 선종의 선별 방법 및 그 응용
KR1020220170535A KR102548873B1 (ko) 2021-12-31 2022-12-08 대장암 및 진행 선종의 선별 검사 방법 및 그 응용

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020220163338A KR20230104517A (ko) 2021-12-31 2022-11-29 대장암 및 대장 용종 또는 진행 선종의 선별 방법 및 그 응용

Country Status (1)

Country Link
KR (2) KR20230104517A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210123127A (ko) * 2020-04-02 2021-10-13 서울대학교산학협력단 종양의 진단 또는 예후에 대한 정보를 제공하는 방법, 및 이를 이용한 매체 및 장치
KR20210134946A (ko) * 2019-03-01 2021-11-11 어드밴스드 마커 디스커버리 에스.엘. 대장암 및/또는 이의 전암 단계 진단을 위한 단백질 시그니처

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210134946A (ko) * 2019-03-01 2021-11-11 어드밴스드 마커 디스커버리 에스.엘. 대장암 및/또는 이의 전암 단계 진단을 위한 단백질 시그니처
KR20210123127A (ko) * 2020-04-02 2021-10-13 서울대학교산학협력단 종양의 진단 또는 예후에 대한 정보를 제공하는 방법, 및 이를 이용한 매체 및 장치

Also Published As

Publication number Publication date
KR20230104517A (ko) 2023-07-10

Similar Documents

Publication Publication Date Title
US11549148B2 (en) Neuroendocrine tumors
CN111961725B (zh) 胰腺癌的检测试剂盒或装置以及检测方法
CN105431737B (zh) 用于预测局部晚期胃癌预后的系统
EP2390370B1 (en) A method for predicting the response of a tumor in a patient suffering from or at risk of developing recurrent gynecologic cancer towards a chemotherapeutic agent
MX2012011167A (es) Metodo para prediccion de recurrencia de cancer de mama bajo tratamiento endocrino.
WO2010003773A1 (en) Algorithms for outcome prediction in patients with node-positive chemotherapy-treated breast cancer
KR20120065959A (ko) 위암의 예후 예측용 마커 및 이를 이용하는 위암의 예후 예측 방법
JP2009148269A (ja) 微量胃癌細胞の検出法
WO2005001138A2 (en) Breast cancer survival and recurrence
CN108676872A (zh) 一种与哮喘相关的生物标志物及其应用
Nagahata et al. Expression profiling to predict postoperative prognosis for estrogen receptor‐negative breast cancers by analysis of 25,344 genes on a cDNA microarray
CN106555004B (zh) 缺血性脑卒中的lncRNA标志物
KR102548873B1 (ko) 대장암 및 진행 선종의 선별 검사 방법 및 그 응용
KR102591596B1 (ko) 대장암 및 대장 용종 선별 방법 및 그 응용
US20230212692A1 (en) Method for sorting colorectal cancer and advanced adenoma and use of the same
US20090297506A1 (en) Classification of cancer
EP4112745A1 (en) Biomarkers for predicting a patient's response to bcg therapy, methods and uses based thereon
WO2014057279A1 (en) Micro-rna biomarkers for prostate cancer
CN108728439A (zh) 小rna组成的指纹图谱及其在膀胱癌诊断中的应用
WO2021060311A1 (ja) 脳腫瘍を検査する方法
US20190010558A1 (en) Method for determining the risk of recurrence of an estrogen receptor-positive and her2-negative primary mammary carcinoma under an endocrine therapy
CN110295232A (zh) 用于结直肠癌的microRNA生物标记物
CN117545856A (zh) 大肠癌及晚期腺瘤的筛查方法及其应用
JP2006166789A (ja) 癌の新規診断方法
WO2015121663A1 (en) Biomarkers for prostate cancer

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant