KR20190036494A - Dna 복제수 변이 기반의 암 종 예측 방법 - Google Patents

Dna 복제수 변이 기반의 암 종 예측 방법 Download PDF

Info

Publication number
KR20190036494A
KR20190036494A KR1020180113721A KR20180113721A KR20190036494A KR 20190036494 A KR20190036494 A KR 20190036494A KR 1020180113721 A KR1020180113721 A KR 1020180113721A KR 20180113721 A KR20180113721 A KR 20180113721A KR 20190036494 A KR20190036494 A KR 20190036494A
Authority
KR
South Korea
Prior art keywords
cancer
data
species
dna replication
prediction model
Prior art date
Application number
KR1020180113721A
Other languages
English (en)
Other versions
KR102233740B1 (ko
Inventor
김광현
이동환
Original Assignee
이화여자대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이화여자대학교 산학협력단 filed Critical 이화여자대학교 산학협력단
Publication of KR20190036494A publication Critical patent/KR20190036494A/ko
Application granted granted Critical
Publication of KR102233740B1 publication Critical patent/KR102233740B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 DNA 복제수 변이 기반의 암 종 예측 방법에 관한 것이다. 본 발명에 따른 DNA 복제수 변이 기반의 암 종 분류 모형, 암 종 예측 모형 및 이를 이용한 DNA 복제수 변이 기반의 암 종 예측 방법은 적절한 기계학습 알고리즘을 활용함으로써 통상적인 방법보다 비침습적이며 높은 민감도 및 특이도로 암 종을 예측 및 암을 진단할 수 있다. 특히, 본 발명은 하나의 예측 모형을 이용하여 다양한 암 종의 예측 및 암의 진단을 가능하게 하며, 이상적인 진단검체인 소변, 혈액 등을 이용한 액상 생검에 적용 가능하여 향후 암 진단 및 유전체 시장에서 유용하게 활용될 수 있다.

Description

DNA 복제수 변이 기반의 암 종 예측 방법{Method for predicting cancer type based on DNA copy number variation}
본 발명은 DNA 복제수 변이 기반의 암 종 예측 방법에 관한 것이다.
임상에서의 암 진단은 통상적으로 병력 조사, 물리적 검사 및 임상적 평가 후 조직 생검(tissue biopsy)을 수행하여 확인하고 있다. 임상 실험에 의한 암 진단은 암 세포의 수가 10억 개 이상이고 암의 직경이 1cm 이상일 경우에만 가능하다. 이 경우, 암 세포는 이미 전이능력을 가지고 있으며, 적어도 이들 중 반은 이미 전이된 상태이다. 또한, 조직생검은 침습적이어서 환자에게 상당한 불편함을 주고, 암 환자를 치료하다 보면 조직생검을 수행할 수 없는 경우도 자주 있다는 문제점이 있다. 이외에, 암 스크리닝에 있어서 암으로부터 직접 또는 간접적으로 생산되는 물질을 모니터링하기 위한 종양 마커가 사용되고 있지만, 암이 존재하는 경우에도 종양 마커 스크리닝 결과 반 이상이 정상으로 나타나고, 암이 없는 경우에도 자주 양성으로 나타나기 때문에, 그 정확성에 한계가 있다.
이와 같은 통상적인 암 진단 방법의 문제점을 보완할만한 비교적 간편하고 비침습적이며 높은 민감도 및 특이도를 가진 암 진단 방법의 요구에 따라, 최근 암의 진단, 추적 검사로 환자의 체액을 활용하는 액상생검(liquid biopsy)이 많이 이용되고 있다. 액상생검은 비침습적(non-invasive)인 방법으로, 기존의 침습적인 진단 및 검사방법의 대안으로 주목 받고 있는 진단기술이다. 그러나, 아직 암의 진단 방법에 있어서 액상생검의 효과를 확인한 대규모 연구결과는 없으며, 액상생검을 통해 모호한 암의 진단 또는 모호한 암 종의 감별을 수행한 연구결과는 전무한 실정이다.
한편, 최근 NGS(Next Generation Sequencing) 기술을 이용한 인간의 유전체 분석 발전으로 유전체 분야에서 다양한 바이오 신기술이 연구되고 있으며, 전세계 유전체 시장 규모는 2013년 기준 111억 달러(11조 8천억원)에서 연평균 12.2%로 성장할 것으로 전망되고, 2018년에는 198억 달러(21조)의 시장 규모를 가질 것으로 예측된다.
NGS가 활용될 수 있는 유전적 변화 중 하나인 복제수 변이(copy number variation, CNV)는 인간 유전체의 개인별 변이에서 구조 변이에 해당하는 것으로, 인간 유전자의 다형성의 주요 부분에 대해 설명하고 일반적인 질병에 대한 유전적 민감성에 중요한 역할을 한다는 것이 예측되어왔다. 복제수 변이는 오직 하나의 염기에만 영향을 주는 단일 염기 다형성(Single Nucleotide Polymorphism, SNP)을 넘어서는 유망한 구조적 변형의 한 종류이다. 복제수 변이는 사이즈 면에서 ~1 키로베이스(kilobase) 내지 여러 메가베이스(megabase)로 다양하다.
이에, 본 발명자들은 비침습적이고 민감도 및 특이도가 높은 암 종 예측 방법을 개발하고자 노력한 결과, 다양한 암 종의 DNA 복제수 변이 데이터를 기계학습하여 암 종 예측 모형(prediction model)을 생성하고, 상기 모형과 실제 환자로부터 수득한 검체의 DNA 복제수 변이 패턴이 일치하여 암 종을 예측할 수 있음을 확인하여 본 발명을 완성하게 되었다.
따라서, 본 발명은 DNA 복제수 변이 기반의 암 종 분류 모형 생성 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 종 예측 모형 생성 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 종 예측 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 진단 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 종 예측 장치를 제공하는 것을 목적으로 한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 진단 장치를 제공하는 것을 목적으로 한다.
상기와 같은 목적을 달성하기 위하여, 본 발명은 DNA 복제수 변이 기반의 암 종 분류 모형 생성 방법을 제공한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 종 예측 모형 생성 방법을 제공한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 종 예측 방법을 제공한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 진단 방법을 제공한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 종 예측 장치를 제공한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 진단 장치를 제공한다.
본 발명에 따른 DNA 복제수 변이 기반의 암 종 분류 모형, 암 종 예측 모형 및 이를 이용한 DNA 복제수 변이 기반의 암 종 예측 방법은 적절한 기계학습 알고리즘을 활용함으로써 통상적인 방법보다 비침습적이며 높은 민감도 및 특이도로 암 종을 예측 및 암을 진단할 수 있다. 특히, 본 발명은 하나의 예측 모형을 이용하여 다양한 암 종의 예측 및 암의 진단을 가능하게 하며, 이상적인 진단검체인 소변, 혈액 등을 이용한 액상 생검에 적용 가능하여 향후 암 진단 및 유전체 시장에서 유용하게 활용될 수 있다.
도 1은 라쏘 벌점화, 랜덤포레스트를 이용하여 만든 암 종 예측 모형의 예측 성능을 표로 나타낸 것이다.
도 2는 본 발명의 암 종 예측 모형을 생성하는 방법에 대한 흐름도(flow chart representation)를 나타낸 것이다.
이하, 본 발명을 보다 상세하게 설명한다.
본 발명은 (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계; (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 및 (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 분류 모형을 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 종 분류 모형 생성 방법을 제공한다.
본 발명에 따른 암 종 분류 모형 생성 방법에 따라 생성된 암 종 분류 모형은 DNA 복제수 변이 데이터를 바탕으로 결정된 자료값에 대하여 머신러닝 기법을 적용하여 생성된 것으로, 대상자의 신체에서 분리하여 채취한 미지의 샘플에서 얻은 DNA 복제수 변이 데이터를 입력할 경우 상기 미지의 샘플을 정상(normal)을 포함한 서로 다른 암 종으로 분류할 수 있다. 나아가, 머신러닝 기법을 활용함에 따라 미지의 샘플이 어떤 암 종에 속하는지에 대한 우선순위 분류가 가능하여, 미지의 샘플을 우선순위 암 종으로 분류할 시 상기 대상자는 우선순위 암 종을 갖는 것으로 예측할 수 있다. 즉, 본 발명에 따른 암 종 분류 모형은 궁극적으로는 암 종 예측 모형으로 기능할 수 있다.
따라서, 본 발명은 (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계; (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 및 (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 종 예측 모형 생성 방법을 제공한다.
본 발명에 있어서, 용어 “DNA”는 상기 대상으로부터 분리하여 채취한 검체로부터 얻은 유전체 DNA 또는 이의 단편을 총칭하며, 세포 유리 DNA(cell-free DNA, cfDNA) 또는 엑소좀 DNA(exosome DNA, exoDNA)를 포함한다. 상기 검체는 보관된 생물학적 시료 또는 그로부터 분리된 유전체 DNA를 포함하는 것일 수 있다. 상기 보관은 알려진 방법에 의하여 보관된 것일 수 있다. 상기 유전체 DNA는 냉동 보관 또는 포르말린 고정된 파라핀 임베디드된 조직을 상온에서 보관한 조직으로부터 유래된 DNA 또는 RNA일 수 있다. 생물학적 시료로부터 유전체 DNA를 분리하는 방법은 통상적인 방법, 예를 들면, 관련 의학 기법에서 당업자에 의해 잘 공지된 방법이라면 제한 없이 사용할 수 있다.
본 발명에 있어서, 용어 "복제수 변이(Copy Number Variation, CNV)"는 특정 염색체의 상대적으로 큰 영역이 결손되거나 증폭되어 반복적으로 나타나는 유전체 DNA의 변이를 의미하는 것으로, 예를 들면 1kB 이상의 DNA 조각이 중첩되어 존재하거나 일부가 결실되는 변이일 수 있다.
본 발명에 있어서, 상기 (a) 단계의 DNA 복제수 변이 데이터는 게놈정보에 관한 공개 DB로부터 수집한 것일 수 있으며, 바람직하게는 ICGC(International Cancer Genome Consortium) 또는 TCGA(The Cancer Genome Atlas), 보다 바람직하게는 TCGA로부터 수집한 것일 수 있다. 본 발명의 일 실시예에 있어서, 상기 TCGA로부터 수집한 데이터의 총 샘플 수는 20,000개 이상으로 상기 20,000 여 개의 샘플을 학습 자료를 기반으로 기계학습 하였다. 보다 상세하게는, 상기 샘플은 각 암 종 별로 100개 이상의 복제수 변이 데이터를 포함하며, 각 암 종 복제수 변이 데이터 외에 TCGA 내 정상 데이터도 포함하는 것을 특징으로 한다. 상기 정상 데이터를 함께 암 종 별 복제수 변이 데이터와 함께 기계학습 시킴에 따라 본 발명에 따른 암 종 예측 모형은 암 진단 방법에도 사용될 수 있다.
본 발명에 있어서, 상기 (b) 단계의 매칭(matching)은 (a) 단계에서 수집한 DNA 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간을 기준으로 요약하는 것을 의미하며, 상기 “매칭” 또는 “요약”은 본 명세서 내에서 서로 혼용하여 사용될 수 있다. 상기 매칭 기준은 바람직하게는 싸이토밴드(cytoband), 일정 구간(ex. 100 ± 50 kb 단위) 및 유전자로 이루어진 군으로부터 선택된 하나 이상일 수 있고, 가장 바람직하게는 싸이토밴드일 수 있으나, 샘플 별, 대상체 별로 다르게 나타나는 DNA 복제수 변이 데이터를 일정한 형태로 통일시킬 수 있는 것이라면 제한 없이 사용할 수 있다.
본 발명에 있어서, 용어 “싸이토밴드(cytoband)”는 염색체 내의 세포유전학적 밴드(cytogenetic band)의 위치 내지 염색체 상의 특정 위치를 의미한다. 본 발명에 있어서, 상기 싸이토밴드 정보는 공개 DB로부터 수집한 것일 수 있고, 바람직하게는 UCSC 웹사이트(https ://genome. ucsc . edu /)로부터 수집한 것일 수 있다. 상기 싸이토밴드는 염색체 번호(chromosome number), genoSeq에서의 시작점(start position in genoSeq), genoSeq에서의 종점(end position in genoSeq) 세포유전학적 밴드의 명칭(Name of cytogenetic band), Giemsa 염색 결과(Giemsa stain results) 등의 정보를 포함한다.
샘플 별, 대상체 별로 다르게 나타나는 DNA 복제수 변이 데이터를 싸이토밴드에 매칭하면 데이터 전처리(preprocessing)의 역할을 훌륭히 수행하여 머신러닝 구현에 용이하고, 분석에 소요되는 시간이 감소함과 동시에 예측 정확도를 증가시킨다. 뿐만 아니라, 싸이토밴드에 매칭된 DNA 복제수 변이 데이터로부터 생물학적인 설명이 가능해 이로부터 의사 또는 임상 병리사가 결과 해석 또는 분석을 용이하게 할 수 있다는 장점이 있다.
본 발명의 일 실시예에 있어서, 본 발명자들은 공개DB로부터 수집한 싸이토밴드 정보를 이용하여 서로 다른 위치에 존재하는 복제수 변이 데이터를 요약하였다. 보다 상세하게는, 다양한 암 종 별 DNA 복제수 변이 데이터를 염색체 및 염기서열 상 위치 별로 중간값 정규화된 log-2 변환하여 log-2 변환된 복제수 변이 데이터를 얻고, 상기 log-2 변환된 복제수 변이 데이터를 싸이토밴드(cytoband)와 매칭하고, 상기 매칭 결과 싸이토밴드와 위치가 일치하는 중간값 정규화된 log-2 변환된 복제수 변이 데이터의 평균값을 해당 싸이토밴드의 자료값으로 결정하고, 상기 싸이토밴드의 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하였다. 본 발명은 DNA 복제수 변이 데이터를 싸이토밴드에 매칭하고 이를 기반으로 머신러닝 기법을 사용해 암 종 분류 모형 및 암 종 예측 모형을 생성한 것에 가장 큰 특징이 있다.
본 발명에 있어서, 상기 (c) 단계의 머신러닝 기법을 이용한 암 종 분류 모형 또는 암 종 예측 모형 생성시에는 상기 모형의 분류 또는 예측 정확도를 높일 수 있을 것으로 판단되는 다양한 “설명변수(예측인자)”를 포함하여 벌점화 회귀 모델 또는 앙상블 기법을 적용할 수 있다. 상기 설명변수(예측인자)로는 성별, 나이, 인종과 같은 인구통계학적 요소와 개인의 흡연여부, 체중과 같은 위험 요소가 포함될 수 있으나 이에 제한되는 것은 아니다. 따라서, 본 발명에 있어서, 상기 머신러닝의 학습 데이터에 해당하는 (b) 단계의 자료값은 성별, 나이, 인종, 흡연여부 및 체중으로 이루어진 군으로부터 선택되는 하나 이상의 설명변수를 더 포함할 수 있다.
본 발명에 있어서, 상기 (c) 단계의 머신러닝 기법은 벌점화 회귀 모델 또는 앙상블 기법인 것을 특징으로 한다.
본 발명에 있어서, 상기 벌점화 회귀 모델은 릿지(Ridge), 라쏘(LASSO) 및 엘라스틱 넷(Elastic Net) 중 어느 하나를 사용한 것일 수 있고, 바람직하게는 라쏘(LASSO) 또는 엘라스틱 넷(Elastic Net)을 사용한 것일 수 있으나, 과최적화(overfitting)을 방지하기 위한 회귀 분석기법이라면 제한 없이 사용할 수 있다.
상기 릿지(Ridge) 벌점 함수는 l2 노름(norm)을 벌점화 항으로 하는 연속 축소 방법으로 편차와 분산의 교환(Bias-Variance trade-off)을 통해 예측 성능을 향상 시킬 수 있는 방법이다.
상기 LASSO(Least Absolute Shrinkage and Selection Operator; Tibshirani, 1996)는 변수선택과 판별을 동시에 해주는 최소절대축소선택연산으로, 고차원 선형모형에서 변수선택의 어려움을 극복하기 위해 유의하지 않은 변수의 계수들을 0에 가까운 수로 줄여 모형에서 제거하는 벌점화우도(penalized likelihood)방법의 일종이다.
상기 엘라스틱 넷(Elastic Net)은 Zou와 Hasite(2005)가 능선 회귀 모형과 LASSO의 벌점화 항의 볼록 결합의 형태로 제안한 것으로, 볼록 최적화 문제의 성질로 인해 최대 N개의 변수를 선택할 수 밖에 없는 LASSO의 한계를 극복하는 방법이다.
본 발명에 있어서, 상기 앙상블 기법(Ensemble)은 머신러닝(Machine Learning)에서 복수의 학습 알고리즘을 예측 모델링에 활용하는 기법을 총칭하는 것으로, 대표적으로 랜덤 포레스트(Random Forest)를 포함한 배깅(bagging) 기법이나 부스팅(boosting) 기법이 있으며 여러 알고리즘을 동시에 사용하는 스태킹(stacking)도 이에 포함된다. 즉, 상기 앙상블 기법은 랜덤 포레스트(Random Forest), 배깅(bagging), 부스팅(boosting) 및 스태킹(stacking) 중 어느 하나일 수 있다.
상기 랜덤 포레스트 알고리즘은 CART의 의사결정나무의 조합으로 이루어진 배깅(bagging) 알고리즘의 일종으로 여러 의사 결정 트리를 만들고 각각의 트리가 훈련 예제와 특징 변수 중 일부를 무작위로 골라 학습에 사용한다. 랜덤 포레스트의 예측 단계에서 각각의 트리는 개별적으로 목표 변수를 결정한 후 알고리즘이 모든 트리의 결정을 취합해 최종 결정을 내린다. 확률 분포가 같은 Random Vector에 의해 생성된 나무들은 각각 독립적으로 구성되고, 구성된 나무들의 개수를 무한으로 가져가면 오분류가 일반화되어 수렴하게 되는데, 랜덤 포레스트는 Randomness와 Out-of-bag(Random Selection without Replacement) 기법을 이용하여 Adaboost 만큼의 정확도를 낼 수 있게 하고 경계면과 잡음(Noise)에 강한 성능을 보이며, 배깅(bagging)과 부스팅(boosting) 보다 빠르게 수렴하도록 도와주는 효과를 나타낸다.
상기 암 종 예측 모형은 다범주 분류 모형인 것을 특징으로 하며, 상기 다범주 분류 모형은 상기 복제수 변이 데이터를 입력 받아 특정 암 종으로 분류되는 확률값을 추정하는 기설정된 함수식인 것이 바람직하다.
본 발명에 있어서, 상기 암 종은 방광암(Bladder urothelial carcinoma), 유방암(Breast invasive carcinoma), 자궁경부암(Cervical and endocervical cancers), 결장암(Colon adenocarcinoma), 식도암(Esophageal carcinoma), 교모세포종(Glioblastoma multiforme), 두경부암(Head and Neck squamous cell carcinoma), 혐색소 신세포암(Kidney Chromophobe), 투명세포형 신세포암(Kidney renal clear cell carcinoma), 유두상 신세포암(Kidney renal papillary cell carcinoma), 급성 골수성 백혈병(Acute Myeloid Leukemia), 양성뇌종양(Brain Lower Grade Glioma), 간암(Liver hepatocellular carcinoma), 폐선암(Lung adenocarcinoma), 폐편평상피세포암(Lung squamous cell carcinoma), 장액성 난소상피암(Ovarian serous cystadenocarcinoma), 췌장암(Pancreatic adenocarcinoma), 부신암(Pheochromocytoma and Paraganglioma), 전립선암(Prostate adenocarcinoma), 직장암(Rectum adenocarcinoma), 육종(Sarcoma), 악성흑색종(Skin Cutaneous Melanoma), 위암(Stomach adenocarcinoma), 고환암(Testicular Germ Cell Tumors), 갑상선암(Thyroid carcinoma), 흉선종(Thymoma) 및 자궁내막암(Uterine Corpus Endometrial Carcinoma)으로 이루어진 군으로부터 선택된 1종 이상일 수 있으며, 바람직하게는 방광암, 유방암, 결장암, 자궁경부암, 간암, 폐선암, 혐색소 신세포암, 투명세포형 신세포암, 유두상 신세포암, 장액성 난소상피암, 전립선암, 폐편평상피세포암 및 위암으로 이루어진 군으로부터 선택된 1종 이상일 수 있고, 보다 바람직하게는 방광암, 유방암, 결장암, 간암, 폐선암 및 전립선암으로 이루어진 군으로부터 선택된 1종 이상일 수 있다.
또한, 본 발명에 있어서, 상기 암 종은 비뇨기암인 것을 특징으로 할 수 있으며, 바람직하게는 방광암, 전립선암, 혐색소 신세포암, 투명세포형 신세포암 및 유두상 신세포암으로 이루어진 군으로부터 선택된 1종 이상일 수 있다.
또한, 본 발명은 (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계; (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하는 단계; (d) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터를 상기 암 종 예측 모형에 입력하는 단계; 및 (e) 상기 입력 결과에 따른 암 종 예측 모형으로부터 예측된 각 암 종의 클래스 라벨 순위를 바탕으로 대상자별 암 종 예측 정보를 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 종 예측 방법을 제공한다.
본 발명에 있어서, 상기 (d) 단계의 DNA 복제수 변이 데이터는 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 를 거친 것을 특징으로 한다.
본 발명에 있어서, 상기 (d) 단계의 검체는 혈액(전혈), 혈장, 혈청, 소변, 타액, 분변, 조직으로 이루어진 군으로부터 선택되는 것일 수 있으며, 바람직하게는 혈액, 혈장, 혈청 및 소변으로 이루어진 군으로부터 선택되는 것일 수 있다.
본 발명에 있어서, 용어 “클래스 라벨”은 대상자 별로 1개의 정상과 27개의 암 종 중에 어느 집단(클래스)에 해당하는지 알려주는 지시 변수(라벨)를 의미한다.
또한, 본 발명에 있어서, 상기 시료에 포함된 유전체 DNA는 임의의 크기로 단편화(fragmentation)된 것일 수 있으며, 상기 단편화는 당업자에게 잘 알려져 있는 방법에 의해 수행될 수 있다.
본 발명에 있어서, 뉴클레오티드 서열의 확인은 예를 들면 시퀀싱(sequencing) 방법을 통해 확인할 수 있으며, 구체적으로는 차세대 염기서열분석법에 의해 확인할 수 있다. 상기 "차세대 염기서열분석법(next generation sequencing: NGS)”은 칩(Chip)기반 그리고 PCR기반 페어드엔드(paired end)형식으로 전장유전체를 조각 내고, 상기 조각을 화학적인 반응(hybridization)에 기초하여 초고속으로 시퀀싱을 수행하는 기술을 의미한다. 차세대 염기서열 분석법에 의해 짧은 시간 내에 분석대상이 되는 시료에 대해 대량의 염기서열 데이터를 생성할 수 있다.
본 발명에 있어서, 용어 “표준 염기서열(reference genome)”은 한 종을 대표하는 염기서열 데이터베이스를 지칭하며, 공여자 염기서열을 그대로 사용하거나 또는 조합하여 만들 수도 있다.
본 발명에 있어서, 용어 “삽입-결실(insertion/deletion, indel)”은 짧은 염기서열이 삽입되거나 결실된 것을 말한다.
본 발명에 있어서, 용어 “맵핑(mapping)”이란 대상 유전자가 기존의 유전자 염기서열로부터 어떤 변화가 일어났는지 조사하기 위해, 대상 염기서열 데이터(sequence reads)를 표준 염기서열(Reference Genome)과 비교하는 작업을 의미한다. 맵핑을 통해 대상과 표준 염기서열의 차이를 알아낸 후 이를 적당한 선택 기준을 정해 신뢰할 수 있는 염기서열 변이 정보만 추출(Variant Calling)하게 되는데, 본 명세서 내에서 이 변이 정보는 복제수 변이(CNV)이다.
본 발명에 있어서, 용어 "대상자"는 암이 발병하거나 또는 발병한 것으로 의심되거나 또는 발병 여부의 예방적 검진이 필요한 포유동물로서 분류된 모든 동물들을 지칭하고, 가축 및 농장 동물, 영장류 및 인간, 예를 들면, 인간, 비-인간 영장류, 소, 말, 돼지, 양, 염소, 개, 고양이 또는 설치류를 포함할 수 있다. 구체적으로, 대상자는 임의의 연령 또는 인종의 인간 남성 또는 여성이다. "대상자" 및 "환자"는 본 명세서에서 상호교환적으로 사용된다.
본 발명에 있어서, 상기 대상자별 암 종 예측 정보는 암 종, 싸이토밴드 별로 시각적으로 요약된 형태(예를 들어, 히트맵 등)로 제공될 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에서는, 대상자의 신체에서 분리하여 채취한 검체로부터 DNA 복제수 변이 데이터를 얻고, 상기 DNA 복제수 변이 데이터를 싸이토밴드와 매칭하여 데이터 전처리를 수행하고(상기 DNA 복제수 변이 데이터는 QDNAseq과 같은 시퀀싱 데이터 정규화 프로그램으로 log-2 변환된 것이다), 상기 매칭된 DNA 복제수 변이 데이터의 평균값을 해당 구간의 자료값으로 결정한 후, 상기 자료값을 본 발명에 따른 암 종 예측 모형에 입력하여 본 발명에 따른 암 종 예측 방법을 평가하였다. 이 때, 입력 결과로서 출력되는 암 종 예측 정보는 상기 검체가 어떤 암 종에 속하는지에 대한 우선순위 분류 정보(클래스 라벨 순위)를 포함하며, 사용자는 상기 분류 정보로부터 대상자가 어떤 암 종을 가지고 있는지를 우선순위를 두어 예측할 수 있다. 본 발명자들은 방광암 및 전립선암 검체를 사용하여 상기 검체로부터 얻은 DNA 복제수 변이 데이터를 본 발명에 따른 암 종 예측 모형에 입력하고, 해당 암에 대하여 5순위 이내로 예측할 시 바르게 예측한 것으로 평가하였다.
또한, 본 발명은 (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계; (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하는 단계; (d) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터를 상기 암 종 예측 모형에 입력하는 단계; 및 (e) 상기 입력 결과에 따른 암 종 예측 모형으로부터 예측된 각 암 종의 클래스 라벨 순위를 바탕으로 대상자별 암 진단 정보를 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 진단 방법을 제공한다.
본 발명에 있어서, 상기 (d) 단계의 DNA 복제수 변이 데이터는 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 를 거친 것을 특징으로 한다.
본 발명에 있어서, 용어 "진단"은 특정 질병 또는 질환에 대한 한 객체의 감수성(susceptibility)을 판정하는 것, 한 객체가 특정 질병 또는 질환을 현재 가지고 있는 지 여부를 판정하는 것, 특정 질병 또는 질환에 걸린 한 객체의 예후(prognosis)(예컨대, 전-전이성 또는 전이성 암 상태의 동정, 암의 단계 결정 또는 치료에 대한 암의 반응성 결정)를 판정하는 것, 테라메트릭스(therametrics)(예컨대, 치료 효능에 대한 정보를 제공하기 위하여 객체의 상태를 모니터링 하는 것), 스코어링을 통해 발병 가능성이 높은 암 종을 선별하는 것, 또는 상기 스코어링 결과를 확인하여 한 객체가 특정 암 종을 현재 가지고 있는지 여부를 판정하는 것을 포함한다.
또한, 본 발명은 (a) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터 정보를 입수하는 정보 입수 모듈; (b) 상기 복제수 변이 데이터에 대하여 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 변환 모듈; (c) 변환된 복제수 변이 데이터를 청구항 제2항의 방법을 통해 생성된 암 종 예측 모형에 입력하여 대상자별 암 종 예측 정보를 생성하는 암 종 예측 정보 생성 모듈; 을 포함하는 DNA 복제수 변이 기반의 암 종 예측 장치를 제공한다.
상기 암 종 예측 장치는 하나 이상의 프로세싱 유닛들로 구현된 모듈로서, 다수의 논리 게이트들의 어레이를 갖는 마이크로프로세서와 이 마이크로프로세서에서 실행될 수 있는 프로그램이 저장된 메모리 모듈의 조합으로 구현될 수도 있다. 암 종 예측 장치는 응용 프로그램의 모듈 형태로 구현될 수도 있다.
또한, 본 발명은 (a) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터 정보를 입수하는 정보 입수 모듈; (b) 상기 복제수 변이 데이터에 대하여 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 변환 모듈; (c) 변환된 복제수 변이 데이터를 청구항 제2항의 방법을 통해 생성된 암 종 예측 모형에 입력하여 대상자별 암 진단 정보를 생성하는 암 진단 정보 생성 모듈; 을 포함하는 DNA 복제수 변이 기반의 암 진단 장치를 제공한다.
본 발명에 따른 DNA 복제수 변이 기반의 암 종 예측 모형 생성 방법, 암 종 예측 방법 및 암 진단 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함하며, 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드가 포함된다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이하, 본 발명을 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.
실시예 1. 암 종 예측 모형의 생성
1-1. 데이터 수집
암 종별 CNV 자료를 얻기 위해 대규모 유전체 데이터인 TCGA Data Portal (https://cancergenome.nih.gov/)을 통하여 샘플을 얻었다. 암 종별로 샘플 수가 100이상인 27개 암과 정상 샘플로 하기 표 1과 같이 모두 20,715개의 샘플 데이터를 얻었다.
연번 암 종 약어 자료 수
1 Bladder urothelial carcinoma 방광암 BLCA 408
2 Breast invasive carcinoma 유방암 BRCA 1079
3 Cervical and endocervical cancers 자궁경부암 CESC 295
4 Colon adenocarcinoma 결장암 COAD 449
5 Esophageal carcinoma 식도암 ESCA 184
6 Glioblastoma multiforme 교모세포종 GBM 573
7 Head and Neck squamous cell carcinoma 두경부암 HNSC 522
8 Kidney Chromophobe 혐색소 신세포암 KICH 66
9 Kidney renal clear cell carcinoma 투명세포형 신세포암 KIRC 528
10 Kidney renal papillary cell carcinoma 유두상 신세포암 KIRP 288
11 Acute Myeloid Leukemia 급성 골수성 백혈병 LAML 191
12 Brain Lower Grade Glioma 양성뇌종양 LGG 512
13 Liver hepatocellular carcinoma 간암 LIHC 370
14 Lung adenocarcinoma 폐선암 LUAD 516
15 Lung squamous cell carcinoma 폐편평상피세포암 LUSC 501
16 Ovarian serouscystadenocarcinoma 장액성 난소상피암 OV 582
17 Pancreatic adenocarcinoma 췌장암 PAAD 184
18 Pheochromocytoma and Paraganglioma 부신암 PCPG 162
19 Prostate adenocarcinoma 전립선암 PRAD 492
20 Rectum adenocarcinoma 직장암 READ 165
21 Sarcoma 육종 SARC 257
22 Skin Cutaneous Melanoma 악성흑색종 SKCM 469
23 Stomach adenocarcinoma 위암 STAD 441
24 Testicular Germ Cell Tumors 고환암 TGCT 150
25 Thyroid carcinoma 갑상선암 THCA 499
26 Thymoma 흉선종 THYM 123
27 Uterine Corpus Endometrial Carcinoma 자궁내막암 UCEC 539
28 Normal 정상세포 NORMAL 10,170
TCGA 샘플들은 다음과 같은 샘플 타입 코드를 가지고 있으며, 본 발명에서는 Tumor 형태인 Code 01, 02, 03, 05, 06은 질병으로 분류하고, Normal 형태인 Code 10, 11, 12는 정상으로 분류하여 그룹 라벨을 Normal과 Tumor로 나누었다.
코드 종류 약어 유형
01 Primary Solid Tumor TP Tumor
02 Recurrent Solid Tumor TR Tumor
03 Primary Blood Derived Cancer - Peripheral Blood TB Tumor
05 Additional - New Primary TAP Tumor
06 Metastatic TM Tumor
10 Blood Derived Normal NB Normal
11 Solid Tissue Normal NT Normal
12 Buccal Cell Normal NBC Normal
1-2. 데이터 전처리
TCGA 샘플의 복제수 변이 데이터는 각 샘플마다 위치가 달라, 머신러닝을 수행하기 위해서 각 샘플별로 일정하게 정해진 구간에서의 복제수 변이 데이터 값을 얻을 필요가 있다. 이러한 데이터 전처리를 위해, UCSC 웹사이트(https://genome.ucsc.edu/)에서 구한 싸이토밴드(cytoband)의 위치 정보를 이용하였다. 즉, TCGA 샘플에서 염색체(chromomosome)가 일치하고, 각 싸이토밴드의 위치 구간과 겹치는 위치에 있는 복제수 변이 데이터들의 평균값을 해당 싸이토밴드에서의 자료값으로 계산하였다. 상기 과정을 통해, 각 샘플 별로 총 28개의 클래스 라벨(class label; 27개 암종 + Normal) 및 총 864개의 싸이토밴드 별 복제수 변이 데이터 평균값을 얻고 이를 최종 학습 자료로 사용하였다.
1-3. 예측 모형 생성
상기 학습 자료를 기반으로 머신러닝 기법을 사용하여 예측 모형을 생성하였다. 이 예측모형은 CNV 데이터를 이용하여 주어진 샘플을 정상군 및 27개 암종으로 분류하고 나아가 실제 검체로부터 얻은 DNA 복제수 변이 데이터를 입력하여 대상자별 암 종 예측 정보를 생성하는 것을 목적으로 한다. 보다 상세하게는, 전체 학습 자료의 70%를 활용하여 라쏘(LASSO) 벌점화와 랜덤 포레스트(Random Forest)에 기반한 다범주 분류 모형에 적용하였다. 통계 프로그램 R의 glmnet과 randomForest 라이브러리를 이용하였다. 암의 Label을 의미하는 변수 G에 있어서, G=0이면 정상군(normal); G=1,…7이면 각 27개의 암종을 가리키는 것으로 정의하였다. 자료 X는 싸이토밴드에 매칭한 복제수 변이 벡터(CNV 벡터)로 정의하였다. 각 통계적 기법은 구체적으로 다음과 같으며, 두 방법들에 필요한 조절 모수들은 교차 검증(Cross-validation)에 의해 선택하였다:
라쏘 (LASSO) 벌점화 분류 방법
라쏘 벌점화 분류 방법은 주어진 CNV 데이터를 이용하여 조건부 확률
Figure pat00001
를 추정하는데 있어 다음의 목적함수(벌점화 음-로그가능도함수)
Figure pat00002
를 최소화하는 모수 벡터
Figure pat00003
를 추정한다.
Figure pat00004
여기에서,
Figure pat00005
인 i번째 샘플의 클래스 라벨이 k이면 1, 아니면 0의 값을 갖는 지시변수,
Figure pat00006
는 k번째 클래스(class)의 모수 벡터,
Figure pat00007
Figure pat00008
의 j번째 싸이토밴드에 해당하는 원소를 의미한다.
Figure pat00009
= 864개 싸이토밴드별 CNV 값으로 i번째 샘플의 설명변수 벡터를 의미한다. 목적함수에 있는 벌점함수
Figure pat00010
는, 예측에 필요한 소수의 중요한 싸이토밴드들을 선택하면서 동시에 예측의 성능을 높여주는 역할을 한다. 또한, 과적합을 피하기 위해 교차 검증(Cross-validation)에 의해 조절모수
Figure pat00011
의 최적의 값을 찾았다.
랜덤 포레스트 (Random Forest) 분류 방법
B개의 부트스트랩 샘플(bootstrap sample)을 생성하여(b=1,…, 각각의 부트스트랩 샘플에서 의사결정나무 모형을 적합하고, X=x인 자료의 b번째 랜덤 포레스트 나무의 클래스 예측값을
Figure pat00012
라고 할 때,
Figure pat00013
,…
Figure pat00014
에서의 다수결 투표에 따라 최종 클래스 라벨을 결정하여 예측하는 앙상블 기법 중의 대표적인 분류 방법이다.
1-4. 예측 모형 성능 검증
TCGA 샘플에서 학습에 사용되지 않은 나머지 30%의 검증 자료(6163개)를 활용하여 암 분류 모형의 예측 성능을 검증하였다. 라쏘 벌점화와 랜덤포레스트를 이용하여 만든 암 종 예측 모형의 검증 결과를 도 1에 나타내었다. 예측 성능을 평가하기 위해 전체 예측 정확도(prediction accuracy), 특이도(specificity), 각 클래스 라벨별 민감도(sensitivity)를 구하였다. 예측 정확도는 전체 6163개 자료 중에 정상을 정상으로, 각 암 종을 해당 암 종으로 정확히 맞춘 자료 수의 비율이고, 특이도는 정상군을 정상군으로 예측한 비율이고, 민감도는 입력된 암 종별 자료를 해당 암 종일 것으로 예측한 비율을 의미한다. 이 때, 해당 암 종에 대하여 5순위 이내로 예측할 시 바르게 예측한 것으로 평가하였다.
도 1에 나타낸 바와 같이, 두 방법의 예측 정확도는 라쏘 벌점화 방법의 경우 94.65%, 랜덤포레스트의 경우 93.30%로 계산되어 매우 높은 예측성능을 보임을 확인하였고, 정상군을 정상군으로 예측한 확률은 라쏘 벌점화 방법과 랜덤포레스트 모두 99%를 상회하여 매우 정확한 예측을 하고 있음을 확인하였다. 각 암 종별 민감도 또한, 암 종별로 그 성능의 차이는 있으나 대체로 높은 것으로 나타나 예측성과가 우수함을 확인하였고, 특히 유방암, 교모세포종, 장액성 난소상피암, 고환암 등은 민감도가 매우 높음을 확인하였다. 한편, 해당 암 종을 1순위로 예측할 경우 라쏘 벌점화 방법과 랜덤 포레스트의 예측 정확도는 각각 79.3%와 77.4%이며, 각 암 종별 민감도 또한 대체로 높은 것으로 나타나 본 발명에 따른 암 종 예측 모형의 예측성능이 우수함을 확인하였다. 특히 유방암(78.96%/78.35%), 교모세포종(81.71%/85.98%), 투명세포형 신세포암(83.85%/88.20%), 장액성 난소상피암(83.54%/91.77%), 고환암(91.67%/89.58%) 등은 민감도가 매우 높음을 확인하였다(각각 라쏘 벌점화 방법/랜덤 포레스트 이용 시의 결과).
상기 실시예 1-1 내지 1-4의 암 종 예측 모형을 생성하는 방법에 관한 흐름도를 도 2에 나타내었다.
실시예 2. 본 발명에 따른 예측 모형을 이용한 암 종의 예측
암 종 예측의 대상이 되는 대상자의 신체에서 검체를 체취하고, 상기 검체로부터 얻은 DNA 복제수 변이 데이터를 상기 실시예 1에서 생성한 암 종 예측 모형에 입력하여 대상자의 암 종을 예측하였다.
2-1. 검체 수집
DNA 복제수 변이 패턴 분석을 위한 샘플을 준비하기 위하여, 대표적 비뇨기암인 방광암 환자와 전립선암 환자의 소변(urine) 검체를 확보하였다. 모든 환자들은 유전자 검사에 대한 정보에 동의하였으며, 모든 실험은 이화여자대학교 목동 병원의 윤리위원회(IRB) 승인 하에 진행되었다.
소변 DNA 추출
소변 샘플은 수술 전에 수집되었다. 소변 샘플의 분석을 위해 각 환자에서 세포 유리 DNA(cell-free DNA, cfDNA) 혹은 엑소좀 DNA(exosome DNA, exoDNA) 추출을 실시하였다. cfDNA의 경우, magnetic bead를 이용한 기법으로 소변 2 ml로부터 150-180 bp 크기의 단편화된(fragmented) DNA를 얻었다. exoDNA의 경우 10 ml의 소변에서 ExoQuick kit를 이용하여 엑소좀을 분리하였으며, 엑소좀에서 키트를 이용하여 DNA를 분리하였다.
2-2. 시퀀싱 및 복제수 변이 데이터 생성
상기 실시예 2-1에서 얻은 분리된 DNA에 대하여 전장 유전체 시퀀싱(Whole genome sequencing, WGS)을 수행하였다. 구체적으로, 분석 데이터 용량을 최소화하기 위하여 low-depth whole genome sequencing(ldWGS)을 수행하였다. 바이오럽터 피코(Bioruptor®Pico; Diagenode diagnostics, Belgium)를 이용하여 소변 exoDNA에서 추출한 DNA를 평균 180 bp의 크기로 단편화시켰다. 단편화 단계는 소변 cfDNA에서는 수행하지 않았다. 서열 분석 라이브러리를 제작하고, 라이브러리는 KAPA HiFi HotStart PCR 키트(Kapa Biosystems, Boston, USA)로 보강하였다. ldWGS는 Illumina Hiseq 장비(Illumina, San Diego, CA)를 이용하여 수행하였다. ldWGS는 1 X 미만의 낮은 게놈 커버리지(genome coverage)로 수행하였고, 게놈 영역의 평균 20.4%는 1 X 이상의 게놈 커버리지로 시퀀싱을 수행하였다. 그 결과, Illumina Hiseq 장비를 이용하여 생성된 전체 유전자 염기서열 데이터는 whole genome 영역의 1/3 정도에 해당하는 1 gigabyte 정도임을 확인하였다. ldWGS를 통해 해독된 각 샘플의 염기서열은 FASTQ 형식의 파일로 저장되었다.
2-3. 데이터 전처리
각 샘플에서 확보한 FASTQ 파일의 데이터 프로세싱을 통하여 복제수 변이 데이터 전처리를 수행하였다. 상기 실시예 2-2에 기재한 바와 같이 준비된 DNA 라이브러리를 시퀀싱하여 염기서열 데이터(reads)를 수득하였다. 수득한 염기서열 데이터는 Burrows-Wheeler aligner(BWA, 버전 0.7.10)를 사용하여 UCSC 인간 게놈(GRCh37/hg19)으로 맵핑하였다. 맵핑 정보로부터 염기서열변이 정보를 추출하기 위하여 SAM 표준포맷으로 변환하였다. 시퀀스 정렬 맵(SAM) 파일은 SAMtools (버전 1.1)를 사용하여 BAM 형식으로 변환하였고, 중복 DNA 서열들은 피카드(Picard) 도구(버전 1.115)를 사용하여 분류하고 분석대상에서 제거하였다. 표준화된 염기서열 데이터의 맵핑 파일들은 GATK(버전 2.3.9)로 삽입-결실 변이 재정렬(indel realigning) 및 염기 정확도 재보정을 수행하여 맵핑 퀄리티를 강화시켰다. 복제수 변이(CNV)는 QDNAseq 파이프라인(버전 1.12.0)로 분석하였다. QDNAseq는 GC 함량 및 매핑률을 기반으로 정규화 및 blacklist filter를 수행하여 복제수 분석의 정확도를 향상시켜, low-depth 및 shallow data에서도 복제수 변이 분석이 가능하다. 염기서열 데이터의 할당(allocation)에는 100 kb 빈(bin)을 사용하였다. ldWGS 데이터로부터 높은 품질의 복제수 정보를 얻기 위한 과정 내에서 GC 매핑률(mappability)에 대한 보정 및 문제가 있는 영역의 배제를 순차적으로 수행하였다. 염기서열 데이터의 100 k 구간 별로 중간값 정규화된 log-2(median-normalized log-2) 변환된 염기서열 데이터 카운트를 계산하였다. 그 다음, 상기 log-2 변환된 DNA 복제수 변이 데이터를 UCSC 웹사이트(https://genome.ucsc.edu/)에서 구한 싸이토밴드와 매칭하여 데이터의 전처리를 수행하였다. 즉, 염색체(chromomosome)가 일치하고, 싸이토밴드의 위치와 겹치는 위치에 있는 복제수 변이 데이터 값들의 평균값을 해당 싸이토밴드의 자료값으로 계산하였다. 통계 분석은 R(버전 3.2.5, http://www.r-project.org)로 수행하였다.
2-4. 암 종의 예측
상기 실시예 2-3에서 수득한 검체 유래 DNA 복제수 변이 데이터를 본 발명에 따른 암 종 예측 모형에 입력하여 방광암과 전립선암에 대한 암 종 예측 정보를 생성하였다. 이를 위해, 상기 DNA 복제수 변이 데이터에 대하여 실시예 1-3에서 생성한 암 종 예측 모형(라쏘 벌점화, 랜덤 포레스트)을 적용하여 28개 클래스 라벨(class label; 27개 암종 + Normal)의 순위를 예측하고, 방광암 또는 전립선암을 5순위 이내로 예측할 시 바르게 예측한 것으로 평가하였다.
라쏘 벌점화 방법을 사용하였을 경우 방광암과 전립선암의 예측 정확도는 각각 88%와 76%였으며, 랜덤포레스트를 시행하였을 때 방광암과 전립선암의 예측 정확도는 각각 88%와 95%로 나타나 본 발명에 따른 암 종 예측 모형의 예측성능이 매우 높음을 확인하였다. 민감도와 특이도에 대한 정보는 하기 표 3과 같다.
라쏘 벌점화 랜덤포레스트
민감도 특이도 민감도 특이도
방광암 82.4% 100.0% 82.4% 100.0%
전립선암 62.5% 82.3% 100.0% 76.4%
상기 결과를 통해, 본 발명에 따른 DNA 복제수 변이 기반의 암 종 분류 모형, 암 종 예측 모형 및 이를 이용한 DNA 복제수 변이 기반의 암 종 예측 방법은 대표적 비뇨기암인 방광암과 전립선암 환자를 적절하게 감별하고 진단할 수 있음을 확인하였다. 따라서, 본 발명은 비침습적이며 높은 민감도 및 특이도로 모호한 암 종의 감별 또는 모호한 암의 진단이 가능함을 확인하였다.
이상, 본 발명의 바람직한 실시 예에 대하여 상세히 설명하였으나, 본 발명의 기술적 범위는 전술한 실시 예에 한정되지 않고 특허청구범위에 의하여 해석되어야 할 것이다. 이때, 이 기술분야에서 통상의 지식을 습득한 자라면, 본 발명의 범위에서 벗어나지 않으면서도 많은 수정과 변형이 가능함을 고려해야 할 것이다.

Claims (19)

  1. (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계;
    (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 및
    (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 분류 모형을 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 종 분류 모형 생성 방법.
  2. (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계;
    (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 및
    (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 종 예측 모형 생성 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 (a) 단계의 DNA 복제수 변이 데이터는 게놈정보에 관한 공개 DB로부터 수집한 것을 특징으로 하는, 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 (b) 단계의 복제수 변이 데이터는 싸이토밴드(cytoband)에 매칭되는 것을 특징으로 하는, 방법.
  5. 제1항 또는 제2항에 있어서,
    상기 (b) 단계의 자료값은 성별, 나이, 인종, 흡연여부 및 체중으로 이루어진 군으로부터 선택되는 하나 이상의 설명변수를 더 포함하는 것을 특징으로 하는, 방법.
  6. 제1항 또는 제2항에 있어서,
    상기 (c) 단계의 머신러닝 기법은 벌점화 회귀 모델 또는 앙상블 기법인 것을 특징으로 하는, 방법.
  7. 제6항에 있어서,
    상기 벌점화 회귀 모델은 릿지(Ridge), 라쏘(LASSO) 및 엘라스틱 넷(Elastic Net) 중 어느 하나를 사용한 것을 특징으로 하는, 방법.
  8. 제6항에 있어서,
    상기 앙상블 기법은 랜덤 포레스트(Random Forest), 배깅(bagging), 부스팅(boosting) 및 스태킹(stacking) 중 어느 하나인 것을 특징으로 하는, 방법.
  9. 제1항 또는 제2항에 있어서,
    상기 암 종은 방광암, 유방암, 자궁경부암, 결장암, 식도암, 교모세포종, 두경부암, 혐색소 신세포암, 투명세포형 신세포암, 유두상 신세포암, 급성 골수성 백혈병, 양성뇌종양, 간암, 폐선암, 폐편평상피세포암, 장액성 난소상피암, 췌장암, 부신암, 전립선암, 직장암, 육종, 악성흑색종, 위암, 고환암, 갑상선암, 흉선종 및 자궁내막암으로 이루어진 군으로부터 선택된 1종 이상인 것을 특징으로 하는, 방법.
  10. 제9항에 있어서,
    상기 암 종은 방광암, 유방암, 결장암, 자궁경부암, 간암, 폐선암, 혐색소신세포암, 투명세포형 신세포암, 유두상 신세포암, 장액성 난소상피암, 전립선암, 폐편평상피세포암 및 위암으로 이루어진 군으로부터 선택된 1종 이상인 것을 특징으로 하는, 방법.
  11. 제1항 또는 제2항에 있어서,
    상기 암 종은 비뇨기암인 것을 특징으로 하는, 방법.
  12. 제11항에 있어서,
    상기 비뇨기암은 방광암, 전립선암, 혐색소 신세포암, 투명세포형 신세포암 및 유두상 신세포암으로 이루어진 군으로부터 선택된 1종 이상인 것을 특징으로 하는, 방법.
  13. (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계;
    (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계;
    (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하는 단계;
    (d) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터를 상기 암 종 예측 모형에 입력하는 단계; 및
    (e) 상기 입력 결과에 따른 암 종 예측 모형으로부터 예측된 각 암 종의 클래스 라벨 순위를 바탕으로 대상자별 암 종 예측 정보를 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 종 예측 방법.
  14. 제13항에 있어서,
    상기 (d) 단계의 DNA 복제수 변이 데이터는 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 를 거친 것을 특징으로 하는, 방법.
  15. 제13항에 있어서,
    상기 (d) 단계의 검체는 혈액, 혈장, 혈청, 소변, 타액, 분변 및 조직으로 이루어진 군으로부터 선택되는 것을 특징으로 하는, 방법.
  16. (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계;
    (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계;
    (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하는 단계;
    (d) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터를 상기 암 종 예측 모형에 입력하는 단계; 및
    (e) 상기 입력 결과에 따른 암 종 예측 모형으로부터 예측된 각 암 종의 클래스 라벨 순위를 바탕으로 대상자별 암 진단 정보를 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 진단 방법.
  17. 제16항에 있어서,
    상기 (d) 단계의 DNA 복제수 변이 데이터는 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 를 거친 것을 특징으로 하는, 방법.
  18. (a) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터 정보를 입수하는 정보 입수 모듈;
    (b) 상기 복제수 변이 데이터에 대하여 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 변환 모듈;
    (c) 변환된 복제수 변이 데이터를 청구항 제2항의 방법을 통해 생성된 암 종 예측 모형에 입력하여 대상자별 암 종 예측 정보를 생성하는 암 종 예측 정보 생성 모듈; 을 포함하는 DNA 복제수 변이 기반의 암 종 예측 장치.
  19. (a) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터 정보를 입수하는 정보 입수 모듈;
    (b) 상기 복제수 변이 데이터에 대하여 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 변환 모듈;
    (c) 변환된 복제수 변이 데이터를 청구항 제2항의 방법을 통해 생성된 암 종 예측 모형에 입력하여 대상자별 암 진단 정보를 생성하는 암 진단 정보 생성 모듈; 을 포함하는 DNA 복제수 변이 기반의 암 진단 장치.
KR1020180113721A 2017-09-27 2018-09-21 Dna 복제수 변이 기반의 암 종 예측 방법 KR102233740B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170125441 2017-09-27
KR20170125441 2017-09-27

Publications (2)

Publication Number Publication Date
KR20190036494A true KR20190036494A (ko) 2019-04-04
KR102233740B1 KR102233740B1 (ko) 2021-03-30

Family

ID=65903110

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180113721A KR102233740B1 (ko) 2017-09-27 2018-09-21 Dna 복제수 변이 기반의 암 종 예측 방법

Country Status (2)

Country Link
KR (1) KR102233740B1 (ko)
WO (1) WO2019066421A2 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102157613B1 (ko) * 2020-06-05 2020-09-18 현대엔지니어링(주) 기계학습을 이용한 자동화 철골구조물 설계 시스템 및 방법
KR20220037376A (ko) 2020-09-17 2022-03-24 한국과학기술원 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치
WO2022114631A1 (ko) * 2020-11-27 2022-06-02 주식회사 녹십자지놈 인공지능 기반 암 진단 및 암 종 예측방법
KR20220076444A (ko) 2020-09-17 2022-06-08 주식회사 지놈인사이트 유전체 서열 내의 변이 후보를 분류하는 방법 및 장치
WO2022250514A1 (ko) * 2021-05-28 2022-12-01 주식회사 지씨지놈 세포유리 핵산과 이미지 분석기술 기반의 암 진단 및 암 종 예측 방법
WO2022250513A1 (ko) * 2021-05-28 2022-12-01 주식회사 지씨지놈 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
WO2023075402A1 (ko) * 2021-10-26 2023-05-04 주식회사 지씨지놈 메틸화된 무세포 핵산을 이용한 암 진단 및 암 종 예측방법
WO2023080586A1 (ko) * 2021-11-03 2023-05-11 주식회사 지씨지놈 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법
WO2023146212A1 (ko) * 2022-01-26 2023-08-03 권창혁 딥러닝 알고리즘을 이용한 암 판별 장치

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110289047B (zh) * 2019-05-15 2021-06-01 西安电子科技大学 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统
CN111145912B (zh) * 2019-12-23 2023-04-18 浙江大学 一种基于机器学习的个性化超促排卵方案的预测装置
CN111402951B (zh) * 2020-03-17 2022-07-12 至本医疗科技(上海)有限公司 拷贝数变异预测方法、装置、计算机设备和存储介质
CN113604544B (zh) * 2021-08-03 2023-03-10 北京大学口腔医学院 一种生物材料功能预测评价方法
CN113838533B (zh) * 2021-08-17 2024-03-12 福建和瑞基因科技有限公司 一种癌症检测模型及其构建方法和试剂盒
WO2023102142A1 (en) * 2021-12-02 2023-06-08 AiOnco, Inc. Approaches to reducing dimensionality of genetic information used for machine learning and systems for implementing the same
KR102477860B1 (ko) * 2021-12-15 2022-12-14 가천대학교 산학협력단 대장암 예측을 위한 세부유전자정보 선택방법 및 시스템
KR20230135782A (ko) 2022-03-17 2023-09-26 한국전자통신연구원 유전자 데이터를 활용하여 종양을 분류하기 위한 기계학습 장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170091378A1 (en) * 2014-03-20 2017-03-30 Pharmacogenetics Limited Use of recurrent copy number variations in the constitutional human genome for the prediction of predisposition to cancer
SG11201707649SA (en) * 2015-06-24 2017-10-30 Samsung Life Public Welfare Foundation Method and device for analyzing gene

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sanaa Fekry 외, Supervised classification of cancers based on copy number variation, AISC, 2018.09.01., Vol.845, pp198-207.* *
Soulafa Mamlouk 외, DNA copy number changes define spatial patterns of heterogeneity in colorectal cancer, Nature Communications, 2017.01.25., Vol.8, No.14093, pp1-12.* *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102157613B1 (ko) * 2020-06-05 2020-09-18 현대엔지니어링(주) 기계학습을 이용한 자동화 철골구조물 설계 시스템 및 방법
WO2021246600A1 (ko) * 2020-06-05 2021-12-09 현대엔지니어링 주식회사 기계학습을 이용한 자동화 철골구조물 설계 시스템 및 방법
KR20220037376A (ko) 2020-09-17 2022-03-24 한국과학기술원 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치
KR20220076444A (ko) 2020-09-17 2022-06-08 주식회사 지놈인사이트 유전체 서열 내의 변이 후보를 분류하는 방법 및 장치
WO2022114631A1 (ko) * 2020-11-27 2022-06-02 주식회사 녹십자지놈 인공지능 기반 암 진단 및 암 종 예측방법
WO2022250514A1 (ko) * 2021-05-28 2022-12-01 주식회사 지씨지놈 세포유리 핵산과 이미지 분석기술 기반의 암 진단 및 암 종 예측 방법
WO2022250513A1 (ko) * 2021-05-28 2022-12-01 주식회사 지씨지놈 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
WO2023075402A1 (ko) * 2021-10-26 2023-05-04 주식회사 지씨지놈 메틸화된 무세포 핵산을 이용한 암 진단 및 암 종 예측방법
WO2023080586A1 (ko) * 2021-11-03 2023-05-11 주식회사 지씨지놈 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법
WO2023146212A1 (ko) * 2022-01-26 2023-08-03 권창혁 딥러닝 알고리즘을 이용한 암 판별 장치

Also Published As

Publication number Publication date
WO2019066421A3 (ko) 2019-07-04
KR102233740B1 (ko) 2021-03-30
WO2019066421A2 (ko) 2019-04-04

Similar Documents

Publication Publication Date Title
KR102233740B1 (ko) Dna 복제수 변이 기반의 암 종 예측 방법
Tomlins et al. Characterization of 1577 primary prostate cancers reveals novel biological and clinicopathologic insights into molecular subtypes
Klein et al. A genomic classifier improves prediction of metastatic disease within 5 years after surgery in node-negative high-risk prostate cancer patients managed by radical prostatectomy without adjuvant therapy
Klein et al. Decipher genomic classifier measured on prostate biopsy predicts metastasis risk
Kluth et al. Prognostic and prediction tools in bladder cancer: a comprehensive review of the literature
Gillard et al. Naturally occurring melanomas in dogs as models for non‐UV pathways of human melanomas
JP5314667B2 (ja) 膀胱癌の診断および/または予後方法
CN115881230A (zh) 区分复杂生物样品中的甲基化水平
US20070065859A1 (en) Methods and materials for identifying the origin of a carcinoma of unknown primary origin
Lazova et al. Imaging mass spectrometry assists in the classification of diagnostically challenging atypical Spitzoid neoplasms
Parry et al. Genomic evaluation of multiparametric magnetic resonance imaging-visible and-nonvisible lesions in clinically localised prostate cancer
Oliveira et al. Head‐to‐head comparison of two online nomograms for prostate biopsy outcome prediction
Beca et al. Growing indication for FNA to study and analyze tumor heterogeneity at metastatic sites
Perry et al. Diagnostic accuracy of pre‐treatment biopsy for grading soft tissue sarcomas in dogs
CN109402252A (zh) 急性髓系白血病风险评估基因标志物及其应用
JP7463357B2 (ja) Pde4d7及びdhx9発現に基づく術前のリスク層別化
KR20160086145A (ko) 유방암의 예후 예측용 유전자 선별방법
CN110291206A (zh) 用于评估前列腺癌晚期临床终点的算法和方法
KR20190137012A (ko) 복합 유전 정보 네트워크 분석에 기반한 질병 위험도 진단 방법
CN110387423A (zh) 前庭神经鞘瘤诊断用生物标志物
JP2020523991A (ja) Praegnant転移性乳癌コホートにおける不良アウトカムの予後指標因子
Kachroo et al. Multi-transcript profiling in archival diagnostic prostate cancer needle biopsies to evaluate biomarkers in non-surgically treated men
CN113234818B (zh) 前列腺癌症标志物基因组合及应用
Lu et al. Detection of TP53 gene mutation in blood of breast cancer patients based on circulating tumor DNA and its application in prognosis
Saillard et al. PACpAInt: a deep learning approach to identify molecular subtypes of pancreatic adenocarcinoma on histology slides

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant