KR20200068305A - 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법 - Google Patents

메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법 Download PDF

Info

Publication number
KR20200068305A
KR20200068305A KR1020180155130A KR20180155130A KR20200068305A KR 20200068305 A KR20200068305 A KR 20200068305A KR 1020180155130 A KR1020180155130 A KR 1020180155130A KR 20180155130 A KR20180155130 A KR 20180155130A KR 20200068305 A KR20200068305 A KR 20200068305A
Authority
KR
South Korea
Prior art keywords
drug resistance
machine learning
pathway
information
resistance
Prior art date
Application number
KR1020180155130A
Other languages
English (en)
Other versions
KR102261925B1 (ko
Inventor
김성영
김영래
Original Assignee
건국대학교 글로컬산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 글로컬산학협력단 filed Critical 건국대학교 글로컬산학협력단
Priority to KR1020180155130A priority Critical patent/KR102261925B1/ko
Publication of KR20200068305A publication Critical patent/KR20200068305A/ko
Application granted granted Critical
Publication of KR102261925B1 publication Critical patent/KR102261925B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법에 관한 것으로, 보다 상세하게는 후천성 약물 내성의 자동 검출을 위해 공개적으로 이용 가능한 후천성 약물 내성 및 내인성 약물 내성의 게놈 코호트 (genomic cohorts) 정보를 이용하여 내성 관련 코호트를 스크리닝하고 병합, 이를 기반으로 개인화된 경로 스코어 알고리즘과 결합된 페널티 회귀(Penalized regression)를 사용하여 매우 높은 정확도와 높은 수준의 일반화(generalizability) 능력을 가진 맞춤 항암제 내성모델을 확립하였으며, 본 발명의 모델은 후천성 약물 내성 예측뿐만 아니라 내인성 약물 내성 및 후천성 약물 내성 간의 이전가능한 예측 판단이 가능하다.
본 발명의 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법을 이용하여 후천성 탁산 내성의 다변수 예측 모델을 개발하고 검증한 결과, 후천성 탁산 내성 모델은 1.000의 AUPRC (area under the precision-recall curve), 0.007의 브라이어 점수(Brier score), 100%의 민감도와 특이도 및 1.000의 AUROC(Arear Under Receiver Operating Characterisic)의 값을 가지는 완벽한 성능을 나타내는 것을 확인하였다.

Description

메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법{Method of Predicting Cancer Drug Resistance Using Meta-analysis-derived, Personalized Pathway-Based Machine Learning Approach}
본 발명은 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법에 관한 것으로, 보다 상세하게는 후천성 약물 내성의 자동 검출을 위해 공개적으로 이용 가능한 후천성 약물 내성 및 내인성 약물 내성의 게놈 코호트 (genomic cohorts) 정보를 이용하여 내성 관련 코호트를 스크리닝하고 병합, 이를 기반으로 개인화된 경로 스코어 알고리즘과 결합된 페널티 회귀(Penalized regression)를 사용하여 매우 높은 정확도와 높은 수준의 일반화(generalizability) 능력을 가진 맞춤 항암제 내성모델을 확립하였으며, 본 발명의 모델은 후천성 약물 내성 예측뿐만 아니라 내인성 약물 내성 및 후천성 약물 내성 간의 이전가능한 예측 판단이 가능하다.
파클리탁셀(paclitaxel; PTX) 및 도세탁셀(docetaxel; DTX)과 같은 탁산은 난소암, 자궁경부암, 자궁내막암 및 유방암을 비롯하여 다양한 종류의 암의 치료제로 사용되는 세포 독성 미세소관 안정제(cytotoxic microtubule-stabilizing agents)이다 (Nussbaumer S. et al., Talanta, 85:2265-89, 2011).
화학요법에 대한 내인성 내성(Intrinsic resistance, IR) 또는 후천성 내성(acquired resistance, AR)은 주요 임상 장애물로서, 전반적인 예후가 좋지 않으나, 약물 내성의 생물학적 경로의 복잡성 때문에 약물 내성에 대한 효율적인 예측 모델의 연구가 미비한 실정이다.
항암제 반응을 예측하기 위해, 최근의 대규모 약물유전체학(pharmacogenomic) 프로젝트인 CCLE(Cancell Cell Line Encyclopedia) 및 CGP(Cancer Genome Project)는 암 세포주의 약물에 대한 게놈 데이터 및 약물 용량 반응을 발표하였다. CCLE 및 CGP는 각각 1000종 이상의 세포주에 대해 24종의 항암제 및 700종 이상의 세포주에 138종의 약물에 대한 반응을 분석하였다. 2개의 연구에서 400개의 세포주와 15개의 약물을 공통적으로 테스트하였다. 일반적인 약물 중의 하나는 파클리탁셀이며, CGP는 추가로 도세탁셀 반응 데이터를 보유하고 있다.
하지만, 의학 연구에서 약물 유전체학의 중요성에도 불구하고 두 연구 사이의 불일치가 최근 논란이 되고 있다. 이전의 연구에서 CCLE 및 CGP 사이의 약리학적 약물반응 측정 및 게놈 프로필 및 약물 반응 사이의 일관되지 않는 상관관계에 대한 불일치가 보고되어, 데이터베이스에 기초한 연구가 잠재적으로 약화되었다 (Haibe-Kains B. et al., Nature, 504:389-93, 2013).
다른 연구에서 수정된 측정기준에 의해 공정한 통계적 일관성을 수득하였지만, 일치하지 않은 약물/세포주 쌍의 대다수에 파클리탁셀이 기인한 것으로 조사되었다 (Bouhaddou M. et al., Nature, 540:E9-E10, 2016). 게다가 CCLE 및 CGP에서 세포주의 약물 내성은 내인성인 것으로 알려져 있으며, 후천성 내성의 모델링 연구가 어려운 실정이며, 후천성 탁산 내성에 대한 이전의 연구는 주로 단일세포주 및 약물 치료를 개별적으로 조사한 것으로, 결과의 일반화 가능성과 이전 가능성(transferability)은 연구되지 않았다.
어레이(array) 및 시퀀싱(sequencing) 등과 같은 고성능 기술은 생물학적 연구를 크게 변화시켰다. 하지만 게놈의 고차원적 특성에 의해 기존 회귀분석법이 제한되었기 때문에 대규모 생물 정보학 데이터를 분석하는 것이 어려운 문제가 있다. 표준 통계 모델은 독립적인 가정을 필요로 하는데, 이는 게놈의 고도로 상호 연관된 특성에 위배되는 문제가 있다.
최근에는, 고차원 데이터 구조에 대한 페널티 회귀와 같은 정규화된 기계 학습 방법이 연구되고 있다. 데이터 마이닝(data mining) 및 기계 학습(machine learning)의 다양한 기능을 갖춘 페널티 회귀는 가장 널리 사용되는 앙상블 학습방법 중 하나가 되었다.
회귀 분석은 데이터 적응성이 높고, 샘플 크기가 작은 데이터에 적합하며, 기능 상호 작용 및 상관관계에 민감하다. 또한, 페널티 회귀 분석은 해석가능한(interpretable) 장점이 있으므로, 특히 의약 분야에서 “블랙-박스 기계 학습 모델(black-box machine learning models)”보다 유리하다.
이에, 본 발명자들은 개인화된 경로와 정교한 기계 학습 알고리즘을 이용하여 다중 학습에서 유도된, 후천성 탁산 내성의 다변수 예측 모델을 개발하고 검증한 결과, 후천성 탁산 내성 모델은 1.000의 AUPRC (area under the precision-recall curve), 0.007의 브라이어 점수(Brier score), 100%의 민감도와 특이도 및 1.000의 AUROC(Arear Under Receiver Operating Characterisic)의 값을 가지는 완벽한 성능을 나타내는 것을 확인하고, 본 발명을 완성하였다.
본 발명의 목적은 개인화된 경로 기반 기계 학습을 이용한 항암제 내성 여부에 대한 정보 제공 제공 방법을 제공하는 데 있다.
상기 목적을 달성하기 위해, 본 발명은
(a) 약물 내성 예측 대상을 선택하는 단계;
(b) 선택된 예측 대상 데이터를 수집하고 선택적으로 처리하는 단계;
(c) 기계 학습 알고리즘을 통해 학습하는 단계; 및
(d) 검증하는 단계;
를 포함하는, 개인화된 경로 기반 기계 학습을 이용한 약물 내성 여부에 대한 정보를 제공하는 방법을 제공한다.
본 발명의 바람직한 일실시예에서, 상기 약물은 항암제로, 탁산(taxan) 계열인 것 일 수 있다.
본 발명의 바람직한 다른 일실시예에 있어서, 상기 (b) 단계의 예측 대상 데이터는 유전자 발현 정보일 수 있다.
본 발명의 바람직한 또 다른 일실시예에 있어서, 상기 (c) 단계의 기계학습 알고리즘은
(ⅰ) 공개 게놈 코호트 (genomic cohorts) 정보를 이용하여 내성 관련 코호트를 스크리닝하고 병합하는 단계;
(ⅱ) 생물학적 경로 정보 데이터를 수집하는 단계;
(ⅲ) 각각의 개별 데이터에 대해 경로 조절장애 점수(pathway dysregulation scores; PDS)를 측정하여, 경로 이상을 수치화하는 단계;
(ⅳ) 상기 경로 조절 장애 점수를 엘라스틱-네트 방법으로 정규화 시키는 단계;
(ⅴ) 엘라스틱-네트 방법으로 정규화된 데이터를 N(총 샘플수)번 반복되는 LOOCV(leave-one-out cross validation) 절차를 사용하여, 정규화 파라미터의 최적 값을 식별하는 단계;
(ⅵ) EPSGO(Efficient Parameter Selection via Global Optimization) 알고리즘을 이용하여 파라미터를 최적화하는 단계; 및
(ⅶ) EPSGO 알고리즘을 사용하여 도출된 파라미터에서 넌-제로 경로 불일치 계수(non-zero pathway dysregulation coefficients)를 가진 예측 변수 세트를 선별하는 단계;를 포함하는 방법으로 확립할 수 있다.
본 발명의 바람직한 또 다른 일실시예에 있어서, 상기 (ⅰ) 단계의 공개 게놈 코호트 (genomic cohorts) 정보는 NCBI(National Center for Biotechnology Information)의 GEO (Gene Expression Omnibus), 유럽 생물정보학 연구소의 어레이익스프레스(ArrayExpress), CCLE(Cancell Cell Line Encyclopedia) 및 CGP(Cancer Genome Project)의 공개 게놈 코호트 (genomic cohorts) 정보일 수 있다.
본 발명의 바람직한 또 다른 일실시예에 있어서, 상기 (ⅱ) 단계의 생물학적 경로 정보는 KEGG(Kyoto Encyclopedia of Genes and Genomes), BioCarta 및 NCI_PID (National Cancer Institute Nature Pathway Interaction Database)에서 추출한 경로 정보(pathway information)일 수 있다.
본 발명의 바람직한 또 다른 일실시예에 있어서, 상기 (ⅲ) 단계의 경로 조절장애 점수는 패시파이어 알고리즘(Pathifier algorithm)을 사용하여 도출하는 것 일 수 있다.
본 발명의 바람직한 또 다른 일실시예에 있어서, 상기 (ⅳ) 단계의 엘라스틱-네트는 라쏘 및 리지 회귀 방법(lasso and ridge regression method)의 페널티를 선형적으로 결합하는 정규화된 회귀 방법일 수 있다.
본 발명의 바람직한 또 다른 일실시예에 있어서, 상기 (ⅵ) 단계의 EPSGO는 온라인 가우스 프로세스(online Gaussian process)를 학습한 것으로, 최대 우도(Maximum likelihood)에 따라 파라미터를 선택하는 메타 휴리스틱 알고리즘(meta-heuristic algorithm)일 수 있다.
본 발명의 바람직한 또 다른 일실시예에 있어서, 상기 (d) 단계의 검증은 AUROC(Arear Under Receiver Operating Characterisic)), AUPRC(area under the precision-recall curve), 브라이어 점수(Brier score; BS), 정밀도(precision), 리콜(recall), 정확도(accuracy; ACC), 매튜 상관계수 (Matthews correlation coefficient; MCC) 및 F1 점수로 구성된 군에서 선택된 하나 이상을 이용하여 수행할 수 있다.
본 발명의 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법을 이용하여 후천성 탁산 내성의 다변수 예측 모델을 개발하고 검증한 결과, 후천성 탁산 내성 모델은 1.000의 AUPRC (area under the precision-recall curve), 0.007의 브라이어 점수(Brier score), 100%의 민감도와 특이도 및 1.000의 AUROC(Arear Under Receiver Operating Characterisic)의 값을 가지는 완벽한 성능을 나타내는 것을 확인하였다.
암 유전체 프로젝트(Cancer Genome Project; CGP) 및 암 세포주백과사전(Cancer Cell Line Encyclopedia; CCLE)에 대한 두 개의 대규모 약물유전체학 리소스(pharmacogenomic resources)에 적용 했을 때, 전반적인 ITR 교차 연구 AUROC는 0.70으로 이전의 연구에서 보고된 거의 무작의적인 수준보다 개선된 정확도를 보이는 것으로 확인되었다. 또한, 본 발명의 모델은 AUROC가 0.69인 블라인드 ATR 코호트에 대해 높은 이전성을 나타내어 일반적인 예측 기능이 ATR 및 ITR 모두에 적용될 수 있음을 확인하였다.
도 1은 후천성 탁산 내성(ATR)을 예측하기 위한 기계 학습 모델의 개발 및 검증을 위한 워크플로이다. 파이프 라인은 세가지 주요부분으로 구성된다 : 교차 학습 정규화, 경로 정보로의 변환 및 모델 구성 (QC: quality control; CGP: Cancer Genome Project; PTX: paclitaxel; DTX: docetaxel; CCLE: Cancer Cell Line Encyclopedia; EM: Empirical Bayes Method; PDS: pathway dysregulation scores; PC: principal component; AUROC: area under the receiver operating curve; AUPRC: area under the precision-recall curve; ACC: accuracy).
학습 코호트는 전처리되어 내부 개발, 검증 코호트 및 외부 블라인드 검정 코호트로 분할되었다. 실험적 베이스 접근법(Combat) 방법이 교차 학습 정규화에 사용되었다. 각각의 개별 표본에 대한 경로 수준 점수로 유전자 발현 수준 정보를 변환하는 것은 3개의 큐레이팅 된 경로 데이터 베이스(Kyoto Encyclopedia of Genes and Genomes (KEGG), Pathway Interaction Database(PID) 및 BioCarta)를 사용하여 수행하였다. 상기 경로 수준 점수 매트릭스를 사용하여 불이행 회귀 모델을 구축하였다. 예측 모델의 파라미터 최적화는 EPSGO(Efficient Parameter Selection via Global Optimization) 알고리즘과 함께 LOOCV를 사용하여 예측 모델의 매게 변수 최적화를 수행하였다.
도 2는 후천성 탁산 내성에 대한 게놈 연구의 선별과정을 설명하는 흐름도이다 (GEO: Gene Expression Omnibus; AE: ArrayExpress; PM: PubMed).
도 3은 후천성 탁산 내성을 예측하기 위해 다중 학습에서 파생된 개별 경로 학습 모델을 나타낸 데이터이다 (S: sensitive; Gef: gefitinib; Erl: erlotinib; Cetu: cetuximab; Afa: afatinib; Lap: lapatinib; DTX: docetaxel; PTX: paclitaxel).
(A) 3개의 개발된 코호트(GSE36135, GSE28784, GSE23779)의 경로 탈규제화 점수(Pathway deregulation score; PDS) 매트릭스이다. 각 행(11,520개 인풋 유전자 특징으로부터 744개의 경로 특징)은 각 코호트의 각 개별 샘플에 대해 z-점수 정규화된 PDS를 나타낸다. 아래쪽에 있는 색 막대는 약물 민감성 상태, 탁산의 유형 및 학습 코호트를 의미한다.
(B) 경로의 주 곡선의 예이며, 주곡선은 개발된 코호트의 각 경로별로 개별적으로 학습된다. 데이터 포인트 및 주곡선은 세가지 주성분(principal component ; PC)에 투영된다. 주곡선은 샘플 클라우드를 통과하여 제어 샘플(탁산에 민감)이 곡선 시작부분에 위치하도록 지시된다.
(C) EPSGO를 포함하는 엘라스틱-네트의 하이퍼파라미터 최적화를 나타내었으며, 튜닝 하이퍼 파라미터 α 및 λ 모두 함수로서 교차 학습 검증 편차를 나타낸다. α는 리지 및 라쏘 페널티 사이의 균형을 조절하는 반면, λ는 전체적인 페널티 양을 조절한다. 빨간색 화살표는 최소 1SE 이내인 최종 EPSGO 솔루션을 의미한다(α=0.682 및 λ 0.0004).
(D) 넌-제로 계수를 가지는 경로의 히트맵을 나타내었다. 744개의 인풋 경로에서 넌-제로 계수를 가지는 39개의 경로를 선별하였다. 최종 경로의 이름은 (A)에 표시된 PDS 행렬 오른쪽에 표시하였다.
도 4는 교차 학습 검증을 이용한 넌-제로 계수의 경로를 나타낸 데이터이다 (PC: principal component). (A) 39개 핵심 넌-제로 경로의 계수. (B) 계수가 1보다 큰 경로의 주곡선.
도 5는 내부 및 외부 검증 ATR 코호트에서 후천성 내성(ATR) 모델 성능을 확인한 데이터이다. ROC (Receiver Operating Characteristic) 및 정밀-리콜 곡선은 예측 능력을 나타내기 위해 사용하였다 (AUC: area under the curve). (A) 내부 교차 검증 ATR 코호트에 대한 모델 평가. (B) 외부 블라인드 ATR 코호트에 대한 모델 평가.
도 6은 세가지 분류자의 성능을 비교한 데이터이다 (RF: random forest; SVM: support vector machine; EPSGO: Efficient Parameter Selection via Global Optimization; AUROC: area under curve of receiver operating characteristic; AUPRC: area under precision recall curve; ACC: accuracy; MCC: Matthews correlation coefficient).
도 7은 내부(ITR) 및 외부 검증 ATR 코호트에서 내인성 탁산 내성(ITR) 모델 성능을 확인한 데이터이다. ROC 및 정밀-리콜 곡선은 예측 능력을 나타내기 위해 사용하였다 (AUC: area under the curve; CCLE: Cancer Cell Line Encyclopedia; PTX: paclitaxel; CGP: Cancer Genome Project; DTX: docetaxel). (A) ITR 코호트(CCLE-PTX, CGP-DTX, CGP-PTX)의 내부 검증에 대한 모델 평가 결과이다.
도 8. 엘라스틱-네트 페널티 회귀 모델의 계수 경로를 나타낸 데이터이다. 내인성 탁산 내성에 대한 CCLE 및 CGP(A), 후천성 탁산 내성에 대한 GSE36135, GSE28784 및 GSE23779이다 (B). 이는 엘라스틱-네트 패널티 회귀 모델의 솔루션 경로로, x축은 정규화 패털티 파라미터인 로그 람다의 함수이며, 위의 축은 λ에서 넌 제로 계수의 수를 의미한다
상술한 바와 같이, CCLE 및 CGP 사이의 약리학적 약물반응 측정 및 게놈 프로필 및 약물 반응 사이의 일관되지 않는 상관관계에 대한 불일치가 보고되었으며, CCLE 및 CGP에서 세포주의 약물 내성은 내인성인 것으로 알려져 있어 후천성 내성의 모델링 연구가 어려운 실정이다.
이에, 본 발명자들은 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법을 이용하여, 후천성 탁산 내성의 다변수 예측 모델을 개발하고 검증하기 위해 노력한 결과, 후천성 탁산 내성 모델은 1.000의 AUPRC (area under the precision-recall curve), 0.007의 브라이어 점수(Brier score), 100%의 민감도와 특이도 및 1.000의 AUROC(Arear Under Receiver Operating Characterisic)의 값을 가지는 완벽한 성능을 나타내는 것을 확인하였다.
따라서, 본 발명은
상기 목적을 달성하기 위해, 본 발명은
(a) 약물 내성 예측 대상을 선택하는 단계;
(b) 선택된 예측 대상 데이터를 수집하고 선택적으로 처리하는 단계;
(c) 기계 학습 알고리즘을 통해 학습하는 단계; 및
(d) 검증하는 단계;
를 포함하는, 개인화된 경로 기반 기계 학습을 이용한 약물 내성 여부에 대한 정보를 제공하는 방법에 관한 것이다.
본 발명에 있어서, 상기 약물은 항암제로, 바람직하게 탁산(taxan) 계열인 것을 특징으로 하나, 다양한 약물에 적용가능하다.
본 발명에 있어서, 상기 (b) 단계의 예측 대상 데이터는 유전자 정보인 것을 특징으로 할 수 있다. 유전자 정보는 약물 내성 예측 대상의 유전자 분석 결과로, 예측 대상의 DNA를 함유하는 특정 조직 또는 기관을 분리하여 분석할 수 있다. 조직의 대표적인 예로는 결합, 피부, 근육 또는 신경 조직이 포함된다. 기관의 대표적인 예로는, 눈, 뇌, 폐, 간, 비장, 골수, 흉선, 심장, 림프, 혈액, 뼈, 연골, 췌장, 신장, 담낭, 위, 소장, 고환, 난소, 자궁, 직장, 신경계, 선 및 내부 혈관이 포함된다. 유전자 분석은 당업계에 공지된 방법을 제한 없이 사용 가능하며, 바람직하게는 차세대 염기서열 분석 방법(Next Generation Sequencing)을 통해 수행할 수 있다.
본 발명에 있어서, 상기 (c) 단계의 기계학습 알고리즘은 구체적으로,
(ⅰ)공개 게놈 코호트 (genomic cohorts) 정보를 이용하여 내성 관련 코호트를 스크리닝하고 병합하는 단계;
(ⅱ) 생물학적 경로 정보 데이터를 수집하는 단계;
(ⅲ) 각각의 개별 데이터에 대해 경로 조절장애 점수(pathway dysregulation scores; PDS)를 측정하여, 경로 이상을 수치화하는 단계;
(ⅳ) 상기 경로 조절 장애 점수를 엘라스틱-네트 방법으로 정규화 시키는 단계;
(ⅴ) 엘라스틱-네트 방법으로 정규화된 데이터를 N(총 샘플수)번 반복되는 LOOCV(leave-one-out cross validation) 절차를 사용하여, 정규화 파라미터의 최적 값을 식별하는 단계;
(ⅵ) EPSGO(Efficient Parameter Selection via Global Optimization) 알고리즘을 이용하여 파라미터를 최적화하는 단계; 및
(ⅶ) EPSGO 알고리즘을 사용하여 도출된 파라미터에서 넌-제로 경로 불일치 계수(non-zero pathway dysregulation coefficients)를 가진 예측 변수 세트를 선별하는 단계;를 포함하는 방법으로 확립한 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (ⅰ) 단계의 공개 게놈 코호트 (genomic cohorts) 정보는 NCBI(National Center for Biotechnology Information)의 GEO (Gene Expression Omnibus), 유럽 생물정보학 연구소의 어레이익스프레스(ArrayExpress), CCLE(Cancell Cell Line Encyclopedia) 및 CGP(Cancer Genome Project)의 공개 게놈 코호트 (genomic cohorts) 정보인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (ⅱ) 단계의 생물학적 경로 정보는 KEGG(Kyoto Encyclopedia of Genes and Genomes), BioCarta 및 NCI_PID (National Cancer Institute Nature Pathway Interaction Database)에서 추출한 경로 정보(pathway information)인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (ⅲ) 단계의 경로 조절장애 점수는 패시파이어 알고리즘(Pathifier algorithm)을 사용하여 도출하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (ⅳ) 단계의 엘라스틱-네트는 라쏘 및 리지 회귀 방법(lasso and ridge regression method)의 페널티를 선형적으로 결합하는 정규화된 회귀 방법인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (ⅵ) 단계의 EPSGO는 온라인 가우스 프로세스(online Gaussian process)를 학습한 것으로, 최대 우도(Maximum likelihood)에 따라 파라미터를 선택하는 메타 휴리스틱 알고리즘(meta-heuristic algorithm)인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (d) 단계의 검증은 AUROC(Arear Under Receiver Operating Characterisic)), AUPRC(area under the precision-recall curve), 브라이어 점수(Brier score; BS), 정밀도(precision), 리콜(recall), 정확도(accuracy; ACC), 매튜 상관계수 (Matthews correlation coefficient; MCC) 및 F1 점수로 구성된 군에서 선택된 하나 이상을 이용하여 수행하는 것을 특징으로 할 수 있다.
개인화된 경로 정보를 기반으로 견고하고 일반화된 ATR 예측 모델을 개발하기 위해, 다중 학습을 통합하는 워크 플로우 및 다양한 암세포주에서 탁산처리(PTX, DTX)의 개인적 경로 규제완화(pathway deregulations)를 통한 다중플랫폼 페널티 기계 학습 방법 모델을 개발하였다 (도 1).
도 1은 후천성 탁산 내성(acquired taxane resistance; ATR)을 예측하기 위한 기계 학습 모델의 개발 및 검증을 위한 워크플로우에 관한 것으로, 파이프라인은 교차 학습 정규화, 경로 정보로의 변환 및 모델 구성의 3가지 주요부분으로 구성된다.
상기 모델을 개발하기 위해, 본 발명에서는 단계별 선택을 통해 탁산 내성을 수득한 샘플 및 Affymetrix GeneChip, Agilent one-color microarrays 및 Illumina BeadArray의 마이크로 어레이 플랫폼 데이터의 세트를 이용하여 분석하였다. 상기 플랫폼은 공개적으로 사용 가능한 주석 정보와 함께 널리 사용되며, 품질이 일관되는 장점이 있다. 연구 선택 흐름도는 도 2에 나타내었다.
본 발명에서는 모델의 견고함을 위해, 다중 학습 유래 경로 맵핑 및 페널티 회귀의 2단계 접근법과 연관시켜 일반화 가능성을 극대화 하였다. 첫 번째 단계는 경로가 개별 유전자보다 암 및 약물 내성의 다중 요인적 성격을 나타내기 때문에 게놈 정보를 경로 정보로 변환하는 것이다. 두 번째 단계는 지나친 수정을 피하고 해석 가능성을 확보하기 위해 페널티 회귀를 사용하였다.
본 발명의 구체적인 일실시예에서는, 세가지 마이크로 어레이 연구(GSE36135-DTX-prostate, GSE28784-DTX and PTX-breast, GSE23779-PTX-ovarian)는 모델 구축을 위한 개발 연구 세트로 사용하였다. 외부 블라인드 검증을 위해 두 개의 독립 코호트(GSE12791-PTX-breast and GSE33455-DTX-prostate)를 사용하여 알고리즘의 일반화 가능성 및 전달 가능성을 테스트하였다. 내인성 탁산 내성(Intrinsic taxan resistance) 및 후천성 탁산 내성(acquired taxan resistance; ATR)간의 가능한 이동성(transferability)을 탐색하기 위해, 본 발명에서는 CCLE 및 CGP 코호트를 개발세트로 사용하고, ATR 코호트를 외부 블라인드로 테스트 하였다. 실험에 사용된 코호트 및 기술변수에 대한 자세한 설명은 표 1에 나타내었다.
본 발명에서는 컴뱃(ComBat) 방법(Johnson W.E. et al., Biostatistics, 8:118-27, 2007)를 사용하여 3가지 발견 연구 집단을 병합하였다. 상기 병합된 유전자 발현 수준 데이터는 고차원 공간에서 데이터 포인트 클라우드로부터 1차원 주곡선을 생성하고 패시파이어(Pathifier) 알고리즘을 사용하여 경로-수준 정보(pathway-level information)로 변환되었으며(도 3B), 상황별 방법으로 공지된 방법에 따라(Drier Y. et al., Proc. Natl. Acad. Sci. USA, 110:6388-93, 2013) 각 개별 샘플에 대한 경로 규제완화 점수(pathway deregulation score; PDS)를 산출하였다 (도 3A).
또한, 본 발명에서는 KEGG(Kyoto Encyclopedia of Genes and Genomes), BioCarta 및 NCI_PID (National Cancer Institute Nature Pathway Interaction Database)) 에서 추출한 경로 정보(pathway information)를 사용하여, 각 경로에 대한 주 곡선을 계산하고 1152개의 병합된 유전자로부터 744개의 PDS를 수득하였다 (도 3A 및 도 3B). 그 후 PDR 행렬에 정규화된 회귀를 적용하여 ATR에 대한 예측 모델을 작성하였다. 엘라스틱-네트 정규화는 공지된 방법에 따라 (Zou H. et al., Journal of the Royal Statistical Society: Series B, 67:301-20, 2005) 리지(ridge)와 라쏘(lasso) 회귀를 선형적으로 결합하였다.
하이퍼파라미터(Hyperparameter) α는 리지(L2 표준) 및 라쏘 페널티(L1 표준)를 조정하고, λ는 전체 페널티 수준을 조정한다. 하이퍼 파라미터는 최적의 엘라스틱-네트 페널티 기능을 위해 미세 조정된다. 본 발명에서는 EPSGO 알고리즘을 사용하여 최소 이항 편차(minimum binomial deviance)로 α 및 λ를 최적화 하였다 (도 3C). 정규화 파라미터가 가장 낮은 이항 편차를 가지는 값에서 EPSGO 튜닝된 엘라스틱-네트는 넌-제로 경로 불일치 계수(non-zero pathway dysregulation coefficients)를 가진 39개의 예측 변수 세트를 선택하였다 (도 3D).
39개의 넌-제로 경로 및 그들의 유전자 구성요소에 대한 자세한 설명은 표 4 및 도 4A에 나타내었다. 39개의 넌-제로 경로 중 계수가 1 보다 큰 5개의 경로는, “심장 혈관계의 저산소증 및 p53(HYPOXIA AND P53 IN THE CARDIOVASCULAR SYSTEM), 다중약제내성 인자(MULTI-DRUG RESISTANCE FACTORS), 담즙분비(BILE SECRETION), 알파 베타 7 인테그린 세포 표면 상호 작용(ALPHAE BETA 7 INTEGRIN CELL SURFACE INTERACTIONS) 및 ABC 트랜스포터(ABC TRANSPORTERS)이다 (도 4B).
구체적으로, Biocarta의 “HYPOXIA AND P53 IN THE CARDIOVASCULAR SYSTEM”, BioCarta의“MULTI-DRUG RESISTANCE FACTORS”, 및 KEGG의 “ABC TRANSPORTERS”는 모델의 견고성을 제한하는 이전의 연구의 항암제 내성(chemoresistance)과 일관되게 연관되어 있지만, 담즙분비(bile secretion), 인테그린 β7 및 탁산 내성 사이의 직접적인 생리화학적 관계는 이전의 연구에서 보고된 바 없다 (Zeng L. et al., Cancer Sci., 98:1394-401, 2007).
인테그린은 세포 부착 매게 약물 내성과 관련이 있는 것으로 보고되었으며, 예를 들면 인테그린 β1은 39개 넌-제로 특징 중 하나이며, 폐암에서 엘로티닙(erlotinib) 내성 및 유방암에서 라파티닙(lapatinib)/트라스투주맙(trastuzumab)과 관련이 있다 (Seguin L. et al., Trends Cell Biol., 25:234-40, 2015). 하지만, 본 발명의 알고리즘에 따른 유익한 특징중의 하나인 인테그린 β7의 역할을 완전히 연구되지 않았다. 담즙분비 및 인테그린 β7 경로에 대한 추가 연구는 ATR에 대한 새로운 분자 표적 후보를 제공할 수 있다.
최종 엘라스틱-네트 모델은 leave-one-out 교차 유효성 검증(leave-one-out cross-study validation; LOOCV)에 완벽한 성능을 나타내었다. 3개의 발달 코호트의 전체 AUROC는 1.000이고 AUPRC는 1.0000, BS는 0.007 및 민감도는 100%를 나타내었다 (표 3, 3 및 도 5A). 본 발명에서는 두가지 외부 검증 코호트를 사용하여 모델의 일반화 가능성을 검증하였다. 본 발명의 알고리즘은 두가지 독립적인 테스트 세트 모두에서 탁월한 성능을 보여주었다. 2명의 외부 블라인트 코호트에 대한 전체 AUROC는 0.940(95%의 신뢰구간(confidence interval; CI, 0.841 ~ 1.000)이고 AUPRC는 0.940 및 BS는 0.127을 나타내었다 (도 5B). 알고리즘의 민감도 및 특이도는 각각 90.0% 및 80.0%로 나타났다 (표 5). 알고리즘은 RF 또는 SVM에 비해 leave-one-out 교차 유효성 검증에서 우수한 성능을 나타내었다 (도 6).
다음으로 본 발명에서는 ITR 및 ATR 사이에 이전 가능성(transferability)이 있는지 확인하였다. CCLE 및 CGP는 약물 감수성 예측을 위한 약물 유전학 정보를 제공하지만, 그러나 최근의 연구에 따르면, 두 가지 연구의 불일치가 주로 항암제에 대한 약리학적 반응에 대한 일관성이 없으며, 이러한 데이터 세트를 기반으로 한 연구에서는 문제가 될 수 있다.
본 발명의 구체적인 일실시예에서, CCLE 및 CGP 데이터를 민감성(메디안(median) IC50 또는 곡선하 면적 이하) 및 내성(메디안(median) IC50 또는 곡선하 면적 이하 이상)으로 분류하였다. 그 다음, CCLE-PTX, CGP-PTX, CGP-DTX의 내성(R) 그룹에서 240, 143, 244개의 시료를, 약제 내성(S) 그룹에서 239, 143, 244 개의 시료를 각각 수득하였다.
CCLE 및 CGP에 대한 leave-one-out 교차 유효성 검증에서 본 발명의 알고리즘은 전체 AUROC는 0.703(95% CI, 0 0.674 ~ 0.731)이고 AUPRC는 0.712, BS는 0.218, 민감도 61.7% 및 특이도 67.1%로 나타났다 (표 5, 5 및 도 7A). CCLE 및 CGP 사이의 일관성에 대해 보고된 이전의 연구(Dong Z. et al., BMC Cancer,15:489, 2015)에서의 정확도는 0.5로 무작위 수준에 가까웠다면, 본 발명의 모델은 매우 효과적으로 경로 예측에 활용할 수 있음을 확인하였다.
나아가, 본 발명에서는 ITR 기반 모델이 ATR을 예측할 수 있는지 여부를 확인하였다. 그 결과, 본 발명의 ITR 기반 모델은 ATR에 대해 전체 AUROC는 0.668(95% CI, 0.539~0.837), AUPRC는 0.725, BS는 0.2126, 민감도 68.0% 및 특이도 64.0%로 좋은 예측 성능을 보이는 것을 확인하였다. 즉, ITR 및 ATR 사이의 높은 이전성을 보이는 것을 확인하였다. (표 6 및 도 7B)
패시파이어(pathifier) 및 페널티 회귀(penalized regression)를 사용하여, 본 발명에서는 11,520 개의 인풋(input) 유전자 특징을 39개의 넌-제로 경로를 수득하였다. ATR과 비교하였을 때, ITR에 대한 계수의 수(특징)은 ATR에 비해 현저하게 큰 것을 확인하였다 (도 8A 및 8B). 이는 ITR이 더 광범위한 기능을 선택했다는 것을 의미한다. 내인성 및 후천적 내성은 다른 메커니즘으로 설명되지만, 알고리즘은 ATR 및 ITR이 공유하는 공통 경로를 포착했을 가능성이 있다. 즉, ITR 데이터(CCLE 및 CGP)에서 개발된 모델이 ATR을 정확하게 예측할 수 있도록 이전 가능한 이유 중에 하나이다.
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다.
이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
연구 선택
다음 검색어 조합을 이용하여 PubMed 및 EMBASE에서 관련 정보를 검색하였다:
“(taxane OR taxoids OR paclitaxel OR docetaxel OR cabazitaxel) AND (drug resistance OR chemoresistance).”
유전자 발현 데이터 세트는 다음의 쿼리(query)에 의해 NCBI의 유전자 발현 옴니버스(NCBI's Gene Expression Omnibus ; GEO, http://www.ncbi.nlm.nih.gov/geo/) 또는 유럽 생물정보학 연구소의 어레이익스프레스(ArrayExpress, http://www.ebi.ac.uk/arrayexpress)에서 스크리닝 및 검색하였다.
“('taxane' [All Fields] OR 'taxoids' [MeSH Terms] OR AND 'drug resistance' [MeSH Terms]) AND expression profiling by array.”
불충분한 샘플 크기, 동물 데이터 및 부적절한 대조군에 대한 연구는 제외하였다. 본 발명에서는 단계별 선택을 통해 탁산 내성을 수득한 샘플 및 Affymetrix GeneChip, Agilent one-color microarrays 및 Illumina BeadArray의 마이크로 어레이 플랫폼 데이터의 세트를 이용하여 분석하였다. 상기 플랫폼은 공개적으로 사용 가능한 주석 정보와 함께 널리 사용되며, 품질이 일관되는 장점이 있다. 연구 선택 흐름도는 도 2에 나타내었으며, 선택된 연구집단은 표 1에 나타내었다.
Figure pat00001
(S: 민감성, R: 내성, CCLE: Cancer Cell Line Encyclopedia, PTX: 파클리탁셀, CGP: Cancer Genome Project; DTX: docetaxel, a) 탁산에 대한 내성 / 민감성 표현형은 다음과 같이 분류된다 : 메디안 IC50 또는 곡선하 면적 (CCLE에서 ActArea로 칭함) 이하 값은 민감성으로 분류하였고, 메디안 IC50 또는 곡선하 면적 이상 값은 내성으로 분류 하였다.)
데이터 처리
본 발명에서 사용된 모든 데이터 세트(GSE36135([Domingo-Domenech J. et al., Cancer Cell, 22:373-88, 2012], GSE28784 [GSE28784[Accession] - GEO DataSets - NCBI], GSE23779 [Landen C.N. et al., Cancer Ther., 9:3186-99, 2010], GSE12791 [Luo W. et al., Anticancer Res., 31:2303-11, 2011], GSE33455 [Marin-Aguilera M. et al., Mol. Cancer. Ther.,11:329-39, 20128], CCLE 및 CGP)는 미국 국립생물정보 센터(NCBI, http://www.ncbi.nih.gov/geo) 및 유럽 생물정보학 연구소의 어레이익스프레스(ArrayExpress, http://www.ebi.ac.uk/arrayexpress) CCLE (http://www.broadinstitute.org/ccle/) 및 CGP (http://www.cancerrxgene.org/)를 통해 GEO로부터 공개적으로 접근할 수 있다. CCLE 및 CGP 세포주에 대한 로우(Raw) 유전자 발현 프로파일은 CCLE 웹사이트 및 ArrayExpress로부터 수탁번호 E-MTAB-783로 공개적으로 접근 가능하다.
코호트 스크리닝 및 병합을 위해서 NCBI의 GEO, 유럽 생물정보학 연구소의ArrayExpress, CCLE 및 CGP의 공개 게놈 코호트 정보를 수득하였으며, 생물학적 경로 정보는 KEGG(Kyoto Encyclopedia of Genes and Genomes), BioCarta 및 NCI_PID (National Cancer Institute Nature Pathway Interaction Database)에서 수득하였다.
CCLE 및 CGP 데이터 세트의 경우, 탁산에 대한 내성/민감성 표현형을 다음과 같이 분류하였다.
메디안(median) IC50 또는 곡선하 면적(area under curve values; CCLE에서 ActArea로 칭함) 이하의 세포주는 민감성으로 분류하였고, 메디안 IC50 또는 곡선하 면적 이상의 세포주는 내성으로 분류하였다.
상세한 단계별 표준화 방법 및 절차는 이전에 공지된 자료를 참고로 수행하였다 (Hughey J.J. et al., Nucleic Acids Res., 43:e79, 2015). 각 데이터 세트의 발현 값은 정규화 및 로그변환 되었다. Affymetrix 플랫폼의 로우 데이터(가능한 경우)는 RMA (Robust Multi-Array Average)를 사용하여 공지된 방법에 따라 전처리하였다 (Irizarry R.A. et al., Biostatistics, 4:249-64, 2003). 그렇지 않은 경우에는 원본 작성자가 제공한대로 전처리된 데이터를 사용하였다.
본 발명에서는 유전자 발현 수준을 요약하기 위해, IQR(interquartile range) 방법을 사용하였다. 이를 통해 본 발명에서는 유전자의 대표로 다중 프로브 세트 ID 중에서 가장 큰 IQR 발현 값을 가지는 프로브 세트 ID를 지정할 수 있었다. 누락된 발현 값은 공지된 방법(Troyanskaya O. et al., Bioinformatics, 17:520-5, 2001)에 따라 가장 가까운 이웃 대입(nearest neighbor imputation; R package impute)을 사용하여 지정하였다. 올바른 일괄 처리 효과 및 교차 학습 정규화를 달성하기 위해 경험적 베이스 방법(Bayes method)인 컴뱃(ComBat) 방법을 적용하였다 (Johnson W.E. et al., Biostatistics, 8:118-27, 2007).
알고리즘 개발
각각의 개별 샘플 점수에 대한 경로 조절장애 점수(pathway dysregulation scores; PDS)는 경로 이상(pathway abnormality)을 수치화 하기 위해 설계된 패시파이어 알고리즘(Pathifier algorithm)을 사용하여 계산하였다 (Drier Y. et al., Proc. Natl. Acad. Sci. USA, 110:6388-93, 2013). 상기 방법은 해스티(Hastie) 및 스튜테즐(Stuetzle) 알고리즘을 사용하여 치수 감소를 위한 첫번째 주성분의 비모수적이고 비선형적인 일반화된 주곡선을 찾았다 (Hastie T et al., J. Am Stat. Assoc., 84:502-16, 1989).
n차원 공간에서 1차원 곡선 f를 고려하면 단일 파라미터 s의 n개 함수의 벡터 f(s)이다. 유한한 n 차원적 랜덤 벡터 Χ = (Χ12,... Χn)가 주어질 때, 투영지수는 하기 수학식 1과 같이 정의되며, 자기 일관성(self-consistency)의 조건은 단순히 하기 수학식 2와 같다.
[수학식 1]
Figure pat00002
[수학식 2]
Figure pat00003
샘플 i의 PDS는 주곡선 fi와 샘플된(예, 민감한 세포) 의 대조군 세트의 무게 중심으로 정의된 기준 종점 사이의 곡선을 따른 거리로서 정의된다. 모든 샘플은 이 주곡선과 관련하여 분석되며, PDS는 각 샘플의 경로에 대한 정규화된 투영거리를 사용하여 지정된다.
PDS 매트릭스를 디자인하는데 사용된 경로 정보는 세가지 큐레이트된 경로 데이터 베이스(curated pathway databases)로부터 수득하였다 (KEGG(Kyoto Encyclopedia of Genes and Genomes), BioCarta 및 NCI_PID (National Cancer Institute Nature Pathway Interaction Database)).
그런 다음, 본 발명에서는 상기 PDS 행렬에 정규화된 회귀를 사용하여 모델에 맞추었다. 정규화 기술은 이전에 공지된 내용을 참고로 하여 수행하였다 (Friedman J. et al., J. Stat. Softw.,33:1-22, 2010; Zou H. et al., Journal of the Royal Statistical Society: Series B, 67:301-20, 2005).
엘라스틱 네트(elastic net)는 라쏘 및 리지 회귀 방법(lasso and ridge regression method)의 페널티를 선형적으로 결합하는 정규화된 회귀 방법으로 하기 수학식 3과 같이 정의된다.
[수학식 3]
Figure pat00004
리지(ridge)/라쏘(lasso) 페널티 비율을 제어 할 수 있는 튜닝 파라미터 α를 사용하여 L2 표준(L2 norm, ridge) 및 L21 표준(L1 norm, lasso) 페널티의 결합하며, 상기 α는 α ∈1] 이다.
엘라스틱 네트는 L1 모델의 복잡성을 감소시키고, L2가 과도하게 단순화 되지 않기 때문에 상관관계가 높은 예측 변수가 있는 고차원, 저 샘플 크기(high dimension, low sample size; HDLSS) 게놈 데이터에 적합하다.
다중 학습에서 유도된 분류자를 만들기 위해 N(총 샘플수)번 반복되는 LOOCV(leave-one-out cross validation) 절차를 사용하여, 평균 표준 오차를 추정하고 최소 편차를 가지는 정규화 파라미터의 최적 값을 식별하였다. EPSGO(efficient parameter selection via global optimization) 알고리즘을 사용하여 본 발명의 파라미터를 최적화하였다 (Sill M. et al., J. Stat. Softw., 62:1-22, 2014).
EPSGO는 온라인 가우스 프로세스(online Gaussian process)를 학습한 것으로, 최대 우도(likelihood)에 따라 파라미터를 선택하는 메타 휴리스틱 알고리즘이다. 상기 알고리즘은 국소 최저치(local minima)에 대해 견고하며, 일반적으로 사용되는 그리드 검색 방법(grid search method)보다 계산상 효율적이다. 변수 선택을 위해, 최적의 파라미터 값을 사용하였다. 본 발명에서는 PDS 및 지엘엠네트 패키지(glmnet package)를 계산하기 위해 R 패키징 패시파이어(R package pathifier)를 사용하여 모델을 구성하고, 휴이 및 버트의 방법(Hughey J.J. et al., Nucleic Acids Res., 43:e79, 2015) 및 R 패키징 C060(Sill M. et al., J. Stat. Softw., 62:1-22, 2014)의 함수를 수정하였다.
본 발명에서는 설정된 파라미터 범위에서 그리드 검색에 의한 기본 최적화를 사용하여, SVM (Support Vector Machines) 및 RF(random forest) 각각에 e1071 및 랜덤포레스트(randomForest) 패키지를 구현하는 캐럿 R 패키지(caret R package)를 사용하였다 (Kuhn M., J. Stat. Softw., 28, 2018).
본 발명에서는 EPSGO 알고리즘을 사용하여 최소 이항 편차(minimum binomial deviance)로 α 및 λ를 최적화 하였다 (도 3C). 정규화 파라미터가 가장 낮은 이항 편차를 가지는 값에서 EPSGO 튜닝된 엘라스틱-네트는 넌-제로 경로 불일치 계수(non-zero pathway dysregulation coefficients)를 가진 39개의 예측 변수 세트를 선택하였다 (표 2 및 도 3D).
교차 학습 검증을 이용한 넌-제로 계수의 경로 목록
Pathways Non-zero coefficient Source Genes
1 HYPOXIA AND P53 IN THE CARDIOVASCULAR SYSTEM 2.223 BioCarta TP53 | AKT1 | TAF1 | HSPA1A | IGFBP3 | FHL2 | GADD45A | HSP90AA1 | BAX | MAPK8 | CDKN1A | MDM2 | ABCB1 | NFKBIB | HIF1A | RPA1 | UBE2A | DNAJB1P1 | HIC1 | ATM | EP300 | HSPA1B
2 MULTI-DRUG RESISTANCE FACTORS 1.928 BioCarta ABCB1 | GSTP1 | ABCB11 | ABCC3 | ABCB4 | ABCC1
3 BILE SECRETION 1.604 KEGG SLC51B | ADCY1 | EPHX1 | SLCO1B7 | ABCC3 | ATP1B4 | ADCY9 | ABCC4 | ADCY4 | SLC9A1 | SLC9A3 | SLC10A1 | ADCY5 | SLC22A8 | SLC22A7 | PRKX | SLC10A2 | SULT2A1 | ADCY7 | CYP3A4 | ATP1A1 | CYP7A1 | SLCO1A2 | SLC22A1 | SCARB1 | CFTR | BAAT | SLC5A1 | PRKACA | PRKACB | PRKACG | UGT2B4 | KCNN2 | ABCB11 | SCTR | SLCO1B3 | ADCY6 | ADCY3 | NCEH1 | SLC2A1 | ATP1B3 | HMGCR | ABCG2 | AQP8 | GNAS | ABCC2 | ATP1A2 | ATP1A3 | SLC4A4 | ATP1A4 | ATP1B1 | ATP1B2 | SLC51A | AQP1 | FXYD2 | SLCO1B1 | AQP4 | SLC4A5 | ADCY2 | LDLR | AQP9 | NR0B2 | RXRA | ABCG8 | ADCY8 | NR1H4 | SLC27A5 | CA2 | SLC4A2 | ABCB1 | ABCB4 | ABCG5
4 ALPHAE BETA7 INTEGRIN CELL SURFACE INTERACTIONS 1.387 PID ITGB7 | ITGAE | CDH1
5 ABC TRANSPORTERS 1.232 KEGG ABCA7 | ABCG4 | ABCC3 | ABCC1 | ABCC4 | ABCA1 | ABCA2 | ABCA3 | ABCB7 | ABCA4 | ABCB10 | ABCB9 | ABCA6 | ABCA5 | ABCC8 | ABCA13 | ABCA12 | ABCB5 | CFTR | ABCB8 | ABCD3 | ABCD4 | ABCB11 | ABCC11 | ABCC5 | ABCB6 | ABCC9 | ABCC12 | ABCG2 | ABCD1 | ABCC2 | ABCD2 | TAP1 | TAP2 | ABCA10 | ABCA9 | ABCA8 | ABCC6 | ABCG8 | ABCG1 | ABCC10 | ABCB1 | ABCB4 | ABCG5
6 REGULATORS OF BONE MINERALIZATION 0.814 BioCarta IBSP | ENPP1 | ANKH | COL4A6 | COL4A4 | COL4A5 | ALPL | COL4A2 | COL4A3 | SPP1 | COL4A1
7 SUMOYLATION AS A MECHANISM TO MODULATE CTBP-DEPENDENT GENE RESPONSES 0.772 BioCarta UBA1 | CTBP1 | SUMO1 | CDH1 | UBE2A | NOS1 | ZEB1 | UBE3A
8 HIF-1-ALPHA TRANSCRIPTION FACTOR NETWORK 0.697 PID LDHA | CA9 | RORA | HK1 | HDAC7 | FECH | CREB1 | JUN | TERT | SMAD4 | LEP | MCL1 | COPS5 | CREBBP | TFRC | EPO | ALDOA | AKT1 | PGM1 | NCOA2 | ARNT | NPM1 | ETS1 | PFKL | ENG | SMAD3 | CXCL12 | SERPINE1 | BHLHE41 | TF | FOS | SP1 | NDRG1 | ID2 | CITED2 | PGK1 | FURIN | GATA2 | EGLN3 | HMOX1 | CXCR4 | ABCB1 | SLC2A1 | BNIP3 | EDN1 | ENO1 | HIF1A | GCK | IGFBP1 | NT5E | TFF3 | NCOA1 | ITGB2 | PKM | ABCG2 | PLIN2 | CP | HK2 | BHLHE40 | PFKFB3 | HNF4A | VEGFA | ADM | NOS2 | EP300 | EGLN1
9 BACTERIAL INVASION OF EPITHELIAL CELLS 0.676 KEGG DOCK1 | RHOA | PTK2 | RHOG | SEPT8 | MET | ELMO3 | ARPC2 | ARPC4 | WASL | SHC3 | CAV1 | CLTCL1 | ILK | SEPT3 | WAS | SHC2 | CAV3 | ARHGEF26 | ARHGAP10 | PIK3CB | ELMO2 | PIK3CD | PIK3CG | PIK3R1 | PIK3R2 | SEPT9 | WASF2 | PIK3R3 | ARPC1A | ELMO1 | SRC | CLTA | ACTB | CLTC | MAD2L2 | CTNNA3 | SHC1 | VCL | SEPT1 | DNM3 | PXN | ACTG1 | SEPT11 | RAC1 | SHC4 | CBLC | ARPC5L | CTNNA1 | CTNNA2 | CD2AP | CAV2 | CTNNB1 | BCAR1 | ITGA5 | DNM1 | CTTN | SEPT6 | CBL | CBLB | CDC42 | CDH1 | WASF1 | CLTB | ARPC5 | PIK3R5 | ARPC3 | ARPC1B | FN1 | ITGB1 | HCLS1 | SEPT12 | GAB1 | CRK | CRKL | DNM2 | PIK3CA | SEPT2
10 INTRINSIC PROTHROMBIN ACTIVATION PATHWAY 0.675 BioCarta F2 | ZFHX3 | SERPING1 | COL4A2 | F11 | COL4A6 | F10 | PROC | COL4A5 | KNG1 | KLKB1 | COL4A1 | F9 | FGG | PROS1 | COL4A4 | FGB | F2R | F5 | FGA | F8 | COL4A3 | F12
11 THYROID CANCER 0.615 KEGG MYC | TPM3 | KRAS | TPR | TCF7 | TCF7L2 | NRAS | BRAF | RET | PAX8 | NTRK1 | HRAS | CCND1 | CTNNB1 | MAPK1 | MAPK3 | PPARG | CCDC6 | NCOA4 | MAP2K1 | MAP2K2 | TFG | CDH1 | LEF1 | TCF7L1 | RXRA | RXRB | RXRG | TP53
12 VALIDATED TRANSCRIPTIONAL TARGETS OF AP1 FAMILY MEMBERS FRA1 AND FRA2 0.500 PID ATF4 | CXCL8 | JUN | MMP1 | DMTF1 | CCND1 | NFATC2 | TXLNG | ITGB4 | FOSL1 | LIF | DCN | MGP | BGLAP | NFATC1 | LAMA3 | THBD | SP1 | NOS3 | JUND | HMOX1 | EP300 | NFATC3 | MMP9 | PLAUR | JUNB | USF2 | CCNA2 | IVL | MMP2 | FOSL2 | COL1A2 | CDKN2A | PLAU | IL6 | CCL2 | GJA1
13 AGRIN IN POSTSYNAPTIC DIFFERENTIATION 0.497 BioCarta LAMC3 | LAMA4 | NRG2 | JUN | ITGA1 | CHRNA1 | LAMA5 | PAK6 | DVL1 | LAMB3 | DMD | GIT2 | LAMC2 | PAK4 | ARHGEF6 | NRG1 | MAPK3 | CDC42 | RAPSN | EGFR | PTK2 | LAMA3 | MAPK8 | UTRN | SP1 | PAK2 | SRC | DAG1 | AGRN | MAPK1 | CTTN | PXN | LAMA1 | LAMA2 | NRG3 | LAMB1 | ACTA1 | CHRM1 | PAK7 | PAK3 | RAC1 | ARHGEF7 | MUSK | LAMC1 | LAMB2 | ITGB1 | PAK1
14 PROTEOGLYCAN SYNDECAN-MEDIATED SIGNALING EVENTS 0.497 PID SDC1 | SDC3 | SDC2 | SDC4
15 BETA1 INTEGRIN CELL SURFACE INTERACTIONS 0.467 PID COL2A1 | CD81 | CD14 | LAMA4 | COL18A1 | ITGA1 | LAMA5 | TGFBI | ITGA7 | ITGA9 | LAMB3 | THBS1 | ITGA4 | COL1A1 | COL4A6 | VCAM1 | LAMC2 | COL11A1 | COL6A2 | ITGA3 | LAMC1 | COL4A5 | ITGA11 | LAMA3 | LAMA2 | COL6A1 | SPP1 | COL4A1 | LAMB2 | COL1A2 | COL6A3 | ITGA8 | FGG | ITGA10 | VTN | COL4A4 | FBN1 | F13A1 | LAMA1 | FGB | ITGA5 | ITGAV | NPNT | COL5A2 | PLAUR | TNC | LAMB1 | FGA | COL7A1 | MDK | COL3A1 | JAM2 | IGSF8 | CSPG4 | ITGA6 | THBS2 | ITGA2 | TGM2 | VEGFA | COL4A3 | PLAU | FN1 | NID1 | COL11A2 | ITGB1 | COL5A1
16 GLYCOLYSIS - GLUCONEOGENESIS 0.251 KEGG ADH5 | BPGM | ADH6 | ADH7 | GPI | PGM2 | AKR1A1 | FBP2 | ACSS2 | LDHAL6B | ALDH3A1 | HK1 | FBP1 | HK3 | LDHAL6A | G6PC2 | ADPGK | HK2 | GAPDH | PDHA1 | PDHA2 | PDHB | ALDH3B1 | ACSS1 | ALDH3B2 | ALDH1B1 | DLAT | PGAM4 | MINPP1 | PKLR | PKM | G6PC | HKDC1 | DLD | GALM | G6PC3 | GCK | ENO1 | ALDH2 | GAPDHS | PFKL | ALDH1A3 | PFKM | PFKP | ALDH9A1 | ALDH3A2 | ALDOA | LDHA | ALDOB | ALDOC | PGAM1 | PGAM2 | LDHB | ENO2 | ENO3 | LDHC | PGK1 | PGK2 | PCK1 | PCK2 | PGM1 | ALDH7A1 | ADH4 | ADH1A | ADH1B | ADH1C | TPI1
17 BCR SIGNALING PATHWAY 0.152 BioCarta LYN | PPP3CA | JUN | FOS | PRKCA | BLNK | PLCG1 | CSNK2A3 | CD79B | HRAS | MAPK3 | ELK1 | NFATC1 | GRB2 | MAPK8 | CSNK2A1 | PPP3CC | RAC1 | SHC1 | RAF1 | CD79A | MAPK14 | BCR | CAMK2B | PPP3CB | MAP3K1 | MAP2K1 | SOS1 | VAV1 | PRKCB | BTK | SYK
18 N-CADHERIN SIGNALING EVENTS 0.150 PID FGFR1 | CALM1 | DCTN1 | CAMK2G | CALM2 | CTNND1 | DAGLA | KIF5B | CNR1 | RHOA | PTPN11 | FER | CTNNB1 | CDC42 | CTTN | AXIN1 | MAPRE1 | MYL2 | GAP43 | JUP | MAPK8 | CALM3 | RAC1 | LRP5 | DAGLB | ROCK1 | CTNNA1 | PTPN1 | GSN | PLCG1 | PIK3R1 | PIP5K1C | PIK3CA | GRIA2 | CDH2 | GJA1
19 ALPHA6 BETA4 INTEGRIN-LIGAND INTERACTIONS 0.132 PID LAMC2 | ITGA6 | LAMA5 | LAMA2 | LAMA3 | LAMB3 | ITGB4 | LAMC1 | LAMA1 | LAMB1 | LAMB2
20 WNT SIGNALING NETWORK 0.124 PID WNT3A | FZD2 | WNT5A | FZD7 | FZD6 | RYK | WNT3 | FZD4 | IGFBP4 | WNT7A | RSPO1 | WNT7B | FZD9 | LOC101929777 | DKK1 | CTHRC1 | WNT2 | WIF1 | LRP6 | ATP6AP2 | KREMEN2 | FZD5 | FZD1 | ROR2 | WNT1 | FZD8 | KREMEN1 | FZD10 | LRP5
21 EICOSANOID METABOLISM 0.103 BioCarta PTGER1 | COX2 | PTGIS | TBXAS1 | CYP2J2 | ALOX5 | CYSLTR2 | PTGIR | TBXA2R | PTGER4 | PTGS1 | PTGES | PLCB1 | PTGER3 | CYSLTR1 | PTGFR | EPHX1 | MPO | PLA2G1B | PTGER2 | EPHX2 | HPGDS | ALOX5AP
22 PDGF SIGNALING PATHWAY 0.092 BioCarta RASA1 | JUN | JAK1 | PRKCA | MAP3K1 | CSNK2A3 | STAT1 | HRAS | MAPK3 | ELK1 | PLCG1 | PDGFRA | GRB2 | MAP2K4 | MAPK8 | FOS | SHC1 | RAF1 | CSNK2A1 | STAT3 | PDGFA | PIK3R1 | MAP2K1 | SOS1 | PIK3CA | PRKCB | SRF
23 MALARIA 0.087 KEGG TGFB1 | SELE | IL10 | TGFB3 | MYD88 | IL12A | MET | HGF | TGFB2 | KLRK1 | THBS1 | THBS2 | THBS3 | THBS4 | IL18 | COMP | CSF3 | SELP | IFNG | GYPA | GYPB | GYPC | CD36 | PECAM1 | TLR2 | TLR4 | CD40 | CD40LG | KLRC4-KLRK1 | LRP1 | ICAM1 | CCL2 | CD81 | ITGAL | TNF | TLR9 | HBA1 | HBA2 | IL1B | CR1 | HBB | ACKR1 | ITGB2 | KLRB1 | SDC1 | SDC2 | IL6 | VCAM1 | CXCL8
24 GLYCOSAMINOGLYCAN BIOSYNTHESIS - CHONDROITIN SULFATE - DERMATAN SULFATE 0.085 KEGG CHPF | XYLT1 | XYLT2 | CHST7 | B3GALT6 | UST | CHST15 | CHST12 | CSGALNACT1 | CHPF2 | CHSY1 | CHST11 | CHSY3 | B4GALT7 | DSE | CHST14 | CHST13 | CHST3 | CSGALNACT2 | B3GAT3
25 CALCIUM SIGNALING BY HBX OF HEPATITIS B VIRUS 0.081 BioCarta LAMTOR5 | SHC1 | SRC | HRAS | MAPK3 | RAF1 | JUN | FOS | MAP2K1 | SOS1 | GRB2 | CAMK2B | CSNK2A1 | PTK2B | CSNK2A3 | CREB1
26 WNT LRP6 SIGNALLING 0.078 BioCarta KREMEN2 | FZD1 | DKK2 | DKK1 | WNT8A | LRP6 | WNT8B
27 SPROUTY REGULATION OF TYROSINE KINASE SIGNALS 0.077 BioCarta CBL | MAP2K2 | SHC1 | SRC | MAPK1 | RASA1 | SPRY1 | PTPRB | RAF1 | SPRY2 | SPRY4 | SOS1 | EGFR | EGF | GRB2 | MAPK3 | SH3KBP1 | HRAS | SPRY3 | MAP2K1
28 SYNDECAN-1-MEDIATED SIGNALING EVENTS 0.075 PID FGFR1 | COL2A1 | FGF23 | FGF1 | COL6A3 | MMP1 | HPSE | FGF2 | MMP7 | TGFB1 | CASK | COL4A6 | FGFR2 | COL11A1 | COL6A2 | MAPK3 | COL4A5 | PRKACA | COL6A1 | COL4A1 | FGF4 | SDC1 | MAPK1 | FGFR4 | COL4A4 | SDCBP | PPIB | MMP9 | COL1A1 | COL5A2 | HGF | COL7A1 | FGFR3 | COL3A1 | FGF19 | LAMA5 | COL1A2 | COL4A3 | CCL5 | BSG | COL11A2 | MET | COL5A1
29 IL23-MEDIATED SIGNALING EVENTS 0.073 PID TNF | CXCL9 | CXCL1 | NOS2 | NFKB1 | IL19 | STAT1 | IL17A | ITGA3 | IL2 | STAT5A | RELA | IL23A | STAT4 | IFNG | CD3E | IL1B | IL6 | CD4 | ALOX12B | IL18RAP | TYK2 | IL12RB1 | STAT3 | SOCS3 | IL18R1 | PIK3R1 | MPO | IL24 | NFKBIA | JAK2 | PIK3CA | IL23R | CCL2 | IL18 | IL17F | IL12B
30 VISUAL SIGNAL TRANSDUCTION 0.069 BioCarta SLC25A18 | RHO | GRK1 | PDE6B | ARRB1 | SLC25A22 | PDE6A | GNB1 | RCVRN | GNAT1 | PDE6G | GUCA1A | GNGT2
31 SIGNAL TRANSDUCTION THROUGH IL1R 0.064 BioCarta TNF | TGFB1 | IRAK1 | JUN | IFNB1 | IL1R1 | TGFB3 | TAB2 | TRAF6 | IFNA1 | TOLLIP | MAP2K3 | PEBP1 | MYD88 | RELA | IKBKG | IKBKB | FOS | TAB1 | IFNA13 | TGFB2 | MAPK8 | IL1B | CHUK | IRAK3 | MAPK14 | IL1RN | MAP3K1 | IRAK2 | IL1A | MAP4K4 | NFKBIA | IL1RAP | MAP3K7 | IL6 | ECSIT | MAP2K6
32 INFLUENCE OF RAS AND RHO PROTEINS ON G1 TO S TRANSITION 0.061 BioCarta AKT1 | PDPK1 | CDK2 | CCND1 | RB1 | CDK6 | RHOA | HRAS | MAPK3 | RELA | TFDP1 | IKBKG | IKBKB | CDK4 | RAC1 | CCNE1 | MAPK1 | CDKN1B | CHUK | RAF1 | E2F1 | MAP2K2 | PIK3R1 | NFKBIA | MAP2K1 | CDKN1A | PIK3CA | PAK1
33 ERK1-ERK2 MAPK SIGNALING PATHWAY 0.061 BioCarta TERT | MKNK1 | PTPRR | SRC | HRAS | MAPK3 | ELK1 | RPS6KA5 | GRB2 | SHC1 | MAPK1 | RAF1 | PPP2R5D | NGFR | MAP2K2 | STAT3 | NGF | MYC | MKNK2 | MAP2K1 | RPS6KA1 | SOS1
34 MULTI-STEP REGULATION OF TRANSCRIPTION BY PITX2 0.044 BioCarta NKD2 | PROC | TRRAP | HDAC1 | DVL1 | CREBBP | CSNK2A3 | GSK3B | CTNNB1 | AXIN1 | DKK2 | CSNK2A1 | LDB1 | NKD1 | PPP2R5D | FRAT1 | KAT5 | WIF1 | LRP6 | KREMEN2 | WNT1 | FZD1 | CCND2 | DKK1 | EP300 | PITX2 | MED1 | LEF1
35 E-CADHERIN SIGNALING IN KERATINOCYTES 0.042 PID RHOA | VASP | PIK3R1 | SRC | CTNNB1 | FYN | CDH1 | CTNNA1 | EGFR | RAC1 | PIP5K1A | CASR | JUP | AKT1 | PIK3CA | CTNND1 | AKT2 | FMN1 | PLCG1 | AJUBA | ZYX
36 NONCANONICAL WNT SIGNALING PATHWAY 0.038 PID CHD7 | NLK | SETDB1 | FZD2 | WNT5A | FZD7 | NFATC2 | DVL1 | PPARG | MAPK10 | FZD6 | TAB2 | DVL3 | FLNA | CDC42 | ARRB2 | MAPK8 | TAB1 | RAC1 | RHOA | DVL2 | DAAM1 | MAPK9 | CSNK1A1 | ROCK1 | CTHRC1 | MAP3K7 | PRKCZ | CAMK2A | FZD5 | ROR2 | YES1
37 MICRORNAS IN CANCER 0.023 KEGG TPM1 | MIR34A | CDKN1A | CDKN1B | MIR7-2 | MIR7-3 | MIR9-1 | MYC | MIR92A1 | MIR92A2 | MIR133B | MIR135B | MIR520C | SPRY2 | TP53 | MIR99A | ERBB2 | ERBB3 | MIR324 | MIR7-1 | MIR326 | MIR330 | MIR331 | MIR335 | ABL1 | MIR342 | MIR345 | CDKN2A | MIR483 | PDGFA | PDGFB | RPS6KA5 | RAF1 | MIR373 | PDGFRB | APC | MIR9-2 | RASSF1 | IRS1 | CYP1B1 | APC2 | PAK4 | HNRNPK | MAPK1 | FOXP1 | BAK1 | MIR9-3 | MIR193B | MCL1 | EZH2 | DDIT4 | CCND1 | BCL2 | BCL2L2 | HMOX1 | ITGA5 | PTEN | MDM2 | MDM4 | MARCKS | ITGB3 | ZEB2 | ST14 | PDCD4 | STAT3 | MIR520G | ABCB1 | PRKCB | MIR520A | MIR199A1 | MIRLET7I | BMI1 | MET | MIR101-1 | MIR602 | SERPINB5 | IKBKB | PTGS2 | BRCA1 | UBE2I | HOXD10 | PIK3CA | PIM1 | MIR449A | MIR520H | PIK3R2 | RPTOR | MIR34B | SIRT1 | WNT3A | ZFPM2 | NFKB1 | GLS | PRKCE | HDAC4 | GLS2 | MIR103B2 | HRAS | MIR451A | MIR10A | ROCK1 | MIR10B | BCL2L11 | E2F2 | PLAU | FGFR3 | PLCG1 | PLCG2 | PDGFRA | MMP9 | MIR210 | MMP16 | COMMD3-BMI1 | RECK | NOTCH1 | MIR375 | CCND2 | NOTCH3 | NOTCH4 | MIR214 | DNMT1 | DNMT3A | DNMT3B | VEGFA | MIR423 | KRAS | EZR | VIM | ABCC1 | FSCN1 | TGFB2 | RHOA | KIF23 | TRIM71 | ZEB1 | MIR128-2 | NRAS | PRKCA | FZD3 | TNC | SOX4 | WNT3 | MAPK7 | SLC45A3 | BMF | MIR96 | SHC1 | CDCA5 | TNR | CASP3 | GRB2 | E2F1 | MIR224 | MIR34C | MIR23C | RDX | CYP24A1 | MIR23A | SHC4 | MIR135A1 | MIR23B | STMN1 | MAP2K2 | MIRLET7A1 | MIRLET7A2 | MIRLET7A3 | MIRLET7B | MIRLET7C | MIRLET7D | MIRLET7E | MIRLET7F1 | MIRLET7F2 | MIRLET7G | CREBBP | MIR100 | DICER1 | MIR101-2 | MIR103A1 | MIR103A2 | BMPR2 | MIR106B | MIR107 | CRK | CRKL | MIR1-1 | MIR1-2 | MIR122 | MIR124-1 | MIR124-2 | MIR124-3 | MIR125A | MIR125B1 | MIR125B2 | MIR126 | CCNE1 | MIR128-1 | CCNG1 | MIR129-1 | MIR129-2 | TNXB | MIR133A1 | MIR133A2 | E2F3 | SLC7A1 | MIR135A2 | MIR203B | MIR137 | THBS1 | IGF2BP1 | HDAC1 | MIR141 | MIR143 | EFNA3 | MIR145 | MIR146A | HMGA2 | MIR150 | MIR152 | MIR155 | MIR15A | MIR15B | TIMP3 | MIR16-2 | MIR17 | MIR18A | MIR181A2 | MTOR | MIR181B2 | MIR181C | CCNE2 | MIR183 | TP63 | TNN | MIR103B1 | MIR192 | MIR194-1 | MIR194-2 | MIR195 | MIR181B1 | NOTCH2 | CD44 | MIR199A2 | MIR199B | MIR19A | MIR19B1 | MIR19B2 | MIR20A | MIR200A | MIR200B | MIR200C | MIR203A | SOCS1 | MIR205 | MIR206 | PRKCG | MIR21 | MIR615 | MIR181A1 | IRS2 | MIR215 | MIR181D | ATM | EGFR | MIR625 | MIR363 | MIR221 | MIR222 | MIR223 | CDC25A | CDC25B | CDC25C | MAP2K1 | MIR16-1 | MIR25 | MIR26A1 | MIR26A2 | MIR26B | MIR27A | MIR27B | MIR28 | MIR29A | MIR29B1 | EP300 | MIR29C | MIR29B2 | MIR494 | MIR30A | MIR30B | MIR30C1 | MIR30C2 | MIR30D | MIR30E | MIR31 | MIR32 | CDK6 | SOS1 | SOS2
38 CENTRAL CARBON METABOLISM IN CANCER 0.022 KEGG MYC | PIK3CB | PIK3R1 | KRAS | RAF1 | MET | SCO2 | TIGAR | ERBB2 | FLT3 | HIF1A | IDH1 | HK1 | HK2 | NRAS | SLC16A3 | EGFR | MTOR | PDGFRB | PDHA1 | PDHA2 | PDHB | PDK1 | SLC2A2 | PIK3CG | GLS2 | PIK3R2 | NTRK1 | NTRK3 | PFKP | PIK3R3 | GLS | PGAM1 | HRAS | PKM | PIK3CD | HKDC1 | HK3 | AKT1 | AKT2 | PFKL | LDHA | FGFR1 | GCK | FGFR2 | PDGFRA | MAPK1 | RET | SIRT6 | PFKM | MAPK3 | PTEN | AKT3 | PGAM4 | MAP2K1 | MAP2K2 | KIT | PGAM2 | G6PD | SLC7A5 | PIK3R5 | SLC1A5 | SLC2A1 | SIRT3 | TP53 | PIK3CA | FGFR3
39 LINKS BETWEEN PYK2 AND MAP KINASES 0.009 BioCarta JUN | GNAQ | PRKCA | BCAR1 | PLCG1 | SRC | HRAS | MAPK3 | MAP2K3 | GRB2 | MAP2K4 | MAPK8 | RAC1 | SHC1 | MAPK1 | RAF1 | MAPK14 | MAP2K2 | CAMK2B | MAP3K1 | CRKL | MAP2K1 | SOS1 | PRKCB | PAK1 | PTK2B
39개의 넌-제로 경로 및 그들의 유전자 구성요소에 대한 자세한 설명은 표 3 및 도 4A에 나타내었다. 39개의 넌-제로 경로 중 계수가 1 보다 큰 5개의 경로는, “심장 혈관계의 저산소증 및 p53(HYPOXIA AND P53 IN THE CARDIOVASCULAR SYSTEM), 다중약제내성 인자(MULTI-DRUG RESISTANCE FACTORS), 담즙분비(BILE SECRETION), 알파 베타 7 인테그린 세포 표면 상호 작용(ALPHAE BETA 7 INTEGRIN CELL SURFACE INTERACTIONS) 및 ABC 트랜스포터(ABC TRANSPORTERS)이다 (도 4B).
평가 전략
본 발명에서 사용된 성능 평가 지표는 AUROC, AUPRC, 브라이어 점수(Brier score; BS), 정밀도, 리콜, 정확도(accuracy; ACC), 매튜 상관계수 (Matthews correlation coefficient; MCC) 및 F1 점수이다. 수용체 작동 곡선(Receiver operating curve)은 y축을 따라 테스트 감도((true positive [TP]/(TP+false negative [FN]))대 x축을 따라 1-특이성(1-true negative [TN]/(false positive [FP]+TN))을 나타낸다. 곡선하 면적(AUC) 값 범위는 0.5(랜덤 예측)에서 1.0(완벽한 예측)까지 이다. 정밀도-회수율 곡선(Precision-recall curve)은 선택된 임계값으로 평가된 모델의 정밀도(TP/(TP+FP)) 및 회수율(감도) 세트의 차이를 특징으로 하는 플롯이다. BS는 하기 수학식 4와 같이 계산된다.
[수학식 4]
Figure pat00005
여기서, pi는 예측된 확률이고, oi는 사건의 실제 결과이며, n은 표본 크기를 의미한다. BS는 본질적으로 이분법 사건의 확률 예측의 평균 제곱 오차이다.
따라서, 작은 BS는 예측의 양호한 보정과 일치한다. F1점수는 0(worst value)에서 1(best value) 범위를 가지며, 정확도와 리콜의 가중 평균 값이다. 정확도(ACC; Accuracy)는 (TP+TN)/(TP+TN+FP+FN)로 정의된다. 균형 측정(balanced measure)로 간주되는 MCC는 기회 확률을 위해 수정된 기하평균 ((TP × TN) - (FP × FN) / 제곱근 ((TP + FP) × (TP + FN) × (TN + FP) × (TN + FN)))이다.
BS를 제외한 모든 파라미터의 예측 성능은 0 에서 1까지의 범위에서 정비례한다.높은 BS는 성능 저하를 나타낸다. MCC 범위는 -1(chance agreement)에서 1 (completely correct)까지 이다. 모든 통계분석은 R 버전 3.2.3을 사용하여 수행하였다 (Statistical Computing Platform).
ATR 교차 학습 검증의 성과 측정
GSE36135 GSE28784 GSE23779
AUROC 1.000 1.000 1.000
AUPRC 1.000 1.000 1.000
Brier 0.022 0 0.001
(AUROC: area under the receiver operating curve, AUPRC: area under the precision-recall curve)
ATR 전반적인 교차 학습 검증 및 외부 검증에서의 성과 측정
Cross study validation Blind study validation
AUROC 1.000 (1.000-1.000) 0.940 (0.841-1.000)
AUPRC 1.000 0.940
Brier score 0.007 0.127
Confusion matrix metrics
Sensitivity (Recall/TPR) 1.000 0.900
Specificity 1.000 0.800
Precision (PPV) 1.000 0.818
Likelihood ratio positive (LR+) Inf 4.500
Likelihood ratio negative (LR-) 0.000 0.125
F1 1.000 0.857
Cohort GSE3613 GSE23779 GSE33455
GSE12791
(괄호안의 값은 95% 신뢰구간이다. AUROC: area under the receiver operating curve; AUPRC: area under the precision-recall curve; TPR: true positive rate; PPV: positive predictive value).
ITR 교차 학습 검증의 성과 측정
CCLE-PTX CGP-PTX CGP-DTX
AUROC 0.739 (0.695-0.783) 0.660 (0.597-0.722) 0.692 (0.645-0.738)
AUPRC 0.735 0.679 0.708
BRIER 0.208 0.23 0.221
(괄호안의 값은 95% 신뢰구간이다. CCLE: Cancer Cell Line Encyclopedia; PTX: paclitaxel; CGP: Cancer Genome Project; DTX: docetaxel; AUROC: area under the receiver operating curve; AUPRC: area under the precision-recall curve)
ITR 전반적인 교차 학습 검증 및 ATR 코호트의 외부 검증에서 성과측정
Cross study validation Blind study validation
AUROC 0.703 (0.674, 0.731) 0.688 (0.539, 0.837)
AUPRC 0.712 0.735
Brier score 0.218 0.226
Confusion matrix metrics
Sensitivity (Recall/TPR) 0.617 0.680
Specificity 0.671 0.640
Precision (PPV) 0.653 0.654
Likelihood ratio positive (LR+) 1.876 1.889
Likelihood ratio negative (LR-) 0.571 0.500
F1 0.634 0.667
Cohort CCLE-PTX
CGP-PTX
CGP-DTX
GSE3613
GSE28784
GSE23779
GSE33455
GSE12791
(괄호안의 값은 95% 신뢰구간이다. AUROC: area under the receiver operating curve; AUPRC:, area under the precision-recall curve; TPR: true positive rate; PPV: positive predictive value; CCLE: Cancer Cell Line Encyclopedia; PTX: paclitaxel; CGP: Cancer Genome Project; DTX: docetaxel)

Claims (10)

  1. (a) 약물 내성 예측 대상을 선택하는 단계;
    (b) 선택된 예측 대상 데이터를 수집하고 선택적으로 처리하는 단계;
    (c) 기계 학습 알고리즘을 통해 학습하는 단계; 및
    (d) 검증하는 단계;
    를 포함하는, 개인화된 경로 기반 기계 학습을 이용한 약물 내성 여부에 대한 정보를 제공하는 방법.
  2. 제1항에 있어서, 상기 약물은 탁산인 것을 특징으로 하는, 개인화된 경로 기반 기계 학습을 이용한 약물 내성 여부에 대한 정보를 제공하는 방법.
  3. 제1항에 있어서, 상기 (b) 단계의 예측 대상 데이터는 유전자 발현 정보인 것을 특징으로 하는, 개인화된 경로 기반 기계 학습을 이용한 약물 내성 여부에 대한 정보를 제공하는 방법.
  4. 제1항에 있어서, 상기 (c) 단계의 기계학습 알고리즘은
    (ⅰ)공개 게놈 코호트 (genomic cohorts) 정보를 이용하여 내성 관련 코호트를 스크리닝하고 병합하는 단계;
    (ⅱ) 생물학적 경로 정보 데이터를 수집하는 단계;
    (ⅲ) 각각의 개별 데이터에 대해 경로 조절장애 점수(pathway dysregulation scores; PDS)를 측정하여, 경로 이상을 수치화하는 단계;
    (ⅳ) 상기 경로 조절 장애 점수를 엘라스틱-네트 방법으로 정규화 시키는 단계;
    (ⅴ) 엘라스틱-네트 방법으로 정규화된 데이터를 N(총 샘플수)번 반복되는 LOOCV(leave-one-out cross validation) 절차를 사용하여, 정규화 파라미터의 최적 값을 식별하는 단계;
    (ⅵ) EPSGO(Efficient Parameter Selection via Global Optimization) 알고리즘을 이용하여 파라미터를 최적화하는 단계; 및
    (ⅶ) EPSGO 알고리즘을 사용하여 도출된 파라미터에서 넌-제로 경로 불일치 계수(non-zero pathway dysregulation coefficients)를 가진 예측 변수 세트를 선별하는 단계;를 포함하는 방법으로 확립한 것을 특징으로 하는, 개인화된 경로 기반 기계 학습을 이용한 약물 내성 여부에 대한 정보를 제공하는 방법.
  5. 제4항에 있어서, 상기 (ⅰ) 단계의 공개 게놈 코호트 (genomic cohorts) 정보는 NCBI(National Center for Biotechnology Information)의 GEO (Gene Expression Omnibus), 유럽 생물정보학 연구소의 어레이익스프레스(ArrayExpress), CCLE(Cancell Cell Line Encyclopedia) 및 CGP(Cancer Genome Project)의 공개 게놈 코호트 (genomic cohorts) 정보인 것을 특징으로 하는, 개인화된 경로 기반 기계 학습을 이용한 약물 내성 여부에 대한 정보를 제공하는 방법.
  6. 제4항에 있어서, 상기 (ⅱ) 단계의 생물학적 경로 정보는 KEGG(Kyoto Encyclopedia of Genes and Genomes), BioCarta 및 NCI_PID (National Cancer Institute Nature Pathway Interaction Database)에서 추출한 경로 정보(pathway information)인 것을 특징으로 하는, 개인화된 경로 기반 기계 학습을 이용한 약물 내성 여부에 대한 정보를 제공하는 방법.
  7. 제4항에 있어서, 상기 (ⅲ) 단계의 경로 조절장애 점수는 패시파이어 알고리즘(Pathifier algorithm)을 사용하여 도출하는 것을 특징으로 하는, 개인화된 경로 기반 기계 학습을 이용한 약물 내성 여부에 대한 정보를 제공하는 방법.
  8. 제4항에 있어서, 상기 (ⅳ) 단계의 엘라스틱-네트는 라쏘 및 리지 회귀 방법(lasso and ridge regression method)의 페널티를 선형적으로 결합하는 정규화된 회귀 방법인 것을 특징으로 하는, 개인화된 경로 기반 기계 학습을 이용한 약물 내성 여부에 대한 정보를 제공하는 방법.
  9. 제4항에 있어서, 상기 (ⅵ) 단계의 EPSGO는 온라인 가우스 프로세스(online Gaussian process)를 학습한 것으로, 최대 우도(Maximum likelihood)에 따라 파라미터를 선택하는 메타 휴리스틱 알고리즘(meta-heuristic algorithm)인 것을 특징으로 하는, 개인화된 경로 기반 기계 학습을 이용한 약물 내성 여부에 대한 정보를 제공하는 방법.
  10. 제1항에 있어서, 상기 (d) 단계의 검증은 AUROC(Arear Under Receiver Operating Characterisic)), AUPRC(area under the precision-recall curve), 브라이어 점수(Brier score; BS), 정밀도(precision), 리콜(recall), 정확도(accuracy; ACC), 매튜 상관계수 (Matthews correlation coefficient; MCC) 및 F1 점수로 구성된 군에서 선택된 하나 이상을 이용하여 수행하는 것을 특징으로 하는, 개인화된 경로 기반 기계 학습을 이용한 약물 내성 여부에 대한 정보를 제공하는 방법.
KR1020180155130A 2018-12-05 2018-12-05 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법 KR102261925B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180155130A KR102261925B1 (ko) 2018-12-05 2018-12-05 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180155130A KR102261925B1 (ko) 2018-12-05 2018-12-05 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법

Publications (2)

Publication Number Publication Date
KR20200068305A true KR20200068305A (ko) 2020-06-15
KR102261925B1 KR102261925B1 (ko) 2021-06-04

Family

ID=71081442

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180155130A KR102261925B1 (ko) 2018-12-05 2018-12-05 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법

Country Status (1)

Country Link
KR (1) KR102261925B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113555070A (zh) * 2021-05-31 2021-10-26 宋洋 机器学习算法构建急性髓系白血病药敏相关基因分类器
WO2023101037A1 (ko) * 2021-11-30 2023-06-08 주식회사 임프리메드코리아 기계 학습 기반의 항암치료 임상 결과 또는 예후 예측 방법
CN117170250A (zh) * 2023-10-31 2023-12-05 山东舜水信息科技有限公司 一种基于元启发式算法的水利监测设备控制优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004511800A (ja) * 2000-10-20 2004-04-15 ビルコ・ビーブイビーエイ 治療に対する耐性を予測するための生物学的カット−オフ値の確立
KR20170055435A (ko) * 2015-11-10 2017-05-19 에스디지노믹스 주식회사 항암 치료 내성 판단 방법 및 상기 방법에 사용되는 조성물

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004511800A (ja) * 2000-10-20 2004-04-15 ビルコ・ビーブイビーエイ 治療に対する耐性を予測するための生物学的カット−オフ値の確立
KR20170055435A (ko) * 2015-11-10 2017-05-19 에스디지노믹스 주식회사 항암 치료 내성 판단 방법 및 상기 방법에 사용되는 조성물

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113555070A (zh) * 2021-05-31 2021-10-26 宋洋 机器学习算法构建急性髓系白血病药敏相关基因分类器
CN113555070B (zh) * 2021-05-31 2022-09-23 宋洋 机器学习算法构建急性髓系白血病药敏相关基因分类器
WO2023101037A1 (ko) * 2021-11-30 2023-06-08 주식회사 임프리메드코리아 기계 학습 기반의 항암치료 임상 결과 또는 예후 예측 방법
CN117170250A (zh) * 2023-10-31 2023-12-05 山东舜水信息科技有限公司 一种基于元启发式算法的水利监测设备控制优化方法
CN117170250B (zh) * 2023-10-31 2024-01-30 山东舜水信息科技有限公司 一种基于元启发式算法的水利监测设备控制优化方法

Also Published As

Publication number Publication date
KR102261925B1 (ko) 2021-06-04

Similar Documents

Publication Publication Date Title
US11398295B2 (en) System and method for classification of patients
KR102261925B1 (ko) 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법
Feng et al. Research issues and strategies for genomic and proteomic biomarker discovery and validation: a statistical perspective
Zheng et al. Predicting cancer origins with a DNA methylation-based deep neural network model
US20120066163A1 (en) Time to event data analysis method and system
EP2094719A2 (en) Novel methods for functional analysis of high-throughput experimental data and gene groups identified therfrom
US20100169025A1 (en) Methods and gene expression signature for wnt/b-catenin signaling pathway
Brubaker et al. Computational translation of genomic responses from experimental model systems to humans
WO2010059742A1 (en) Individualized cancer treatment
Ambesi-Impiombato et al. Computational biology and drug discovery: from single-target to network drugs
Dhillon et al. Biomarker identification and cancer survival prediction using random spatial local best cat swarm and Bayesian optimized DNN
Zhang et al. Elastic net regularized softmax regression methods for multi-subtype classification in cancer
Huo et al. Bayesian latent hierarchical model for transcriptomic meta-analysis to detect biomarkers with clustered meta-patterns of differential expression signals
Maddouri et al. Deep graph representations embed network information for robust disease marker identification
WO2022032070A1 (en) Predictive universal signatures for multiple disease indications
e Silva et al. Optimisation of Cancer Status Prediction Pipelines using Bio-Inspired Computing
Sun et al. A reference-free approach for cell type classification with scRNA-seq
Zou et al. Systems approach for congruence and selection of cancer models towards precision medicine
Meng et al. Identification of a small optimal subset of CpG sites as bio-markers from high-throughput DNA methylation profiles
Wadapurkar et al. Machine learning approaches for prediction of ovarian cancer driver genes from mutational and network analysis
Tian et al. Identification of genes involved in breast cancer metastasis by integrating protein–protein interaction information with expression data
Mei et al. A New Algorithm for Analysis of MiRNA Expression Profiles--SVM-RFE-FKNN.
US20240167097A1 (en) Cellular response assays for lung cancer
US20210193267A1 (en) Methods, systems, and related computer program products for evaluating cancer model fidelity
Reddy et al. Designing Cell-Type-Specific Promoter Sequences Using Conservative Model-Based Optimization

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant