KR101401561B1 - 복합 바이오마커를 활용한 암 진단 정보 생성 방법, 및 암 진단 예측 시스템 장치 - Google Patents
복합 바이오마커를 활용한 암 진단 정보 생성 방법, 및 암 진단 예측 시스템 장치 Download PDFInfo
- Publication number
- KR101401561B1 KR101401561B1 KR1020100139567A KR20100139567A KR101401561B1 KR 101401561 B1 KR101401561 B1 KR 101401561B1 KR 1020100139567 A KR1020100139567 A KR 1020100139567A KR 20100139567 A KR20100139567 A KR 20100139567A KR 101401561 B1 KR101401561 B1 KR 101401561B1
- Authority
- KR
- South Korea
- Prior art keywords
- information
- cancer
- cancer diagnosis
- biomarker
- model
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/50—Determining the risk of developing a disease
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Data Mining & Analysis (AREA)
- Hematology (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Chemical & Material Sciences (AREA)
- Urology & Nephrology (AREA)
- Pure & Applied Mathematics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Microbiology (AREA)
- Oncology (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- Biotechnology (AREA)
- Cell Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Hospice & Palliative Care (AREA)
- Operations Research (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Pathology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
본 발명은 복수 개의 바이오마커별 발현량 정보를 변환하여 변환된 발현량 정보를 활용하는 복합 바이오마커를 활용한 암 진단 방법, 암 진단 모델 생성 방법, 암 진단 예측 시스템 및 바이오마커의 영향력 처리 방법에 관한 것이다.
본 발명을 활용하면, 단일 바이오마커에 비하여, 암 진단 능력이 높은 복합 바이오마커를 구성할 수 있으며, 이상치 등에 의한 암 진단 모델의 왜곡을 최소화할 수 있어, 암 진단 키트 및 암 진단 방법의 신뢰성을 높일 수 있다.
본 발명을 활용하면, 단일 바이오마커에 비하여, 암 진단 능력이 높은 복합 바이오마커를 구성할 수 있으며, 이상치 등에 의한 암 진단 모델의 왜곡을 최소화할 수 있어, 암 진단 키트 및 암 진단 방법의 신뢰성을 높일 수 있다.
Description
본 발명은 복합 바이오마커를 활용한 암 진단 정보 생성 방법, 암 진단 예측 시스템 장치에 대한 것으로서, 복수 개의 바이오마커별 발현량 정보를 변환하여 변환된 발현량 정보를 활용하는 복합 바이오마커를 활용한 암 진단 정보 생성 방법, 암 진단 예측 시스템 장치에 관한 것이다.
암은 전 세계 제 2위의 사망 원인이다. 암의 피해를 줄이기 위해서는 항암제의 개발 뿐만 아니라, 암의 초기 발견과 치료 효과를 모니터링이 중요하다.
기존의 이미지 분석에 의한 암의 진단은 시간과 노력이 많이 들어, 특별한 증상이 없는 환자의 경우에는 실행하기에 적절치 못하였으며, MRI나 기타 이미지를 분석하는 방법은 대량의 환자를 스크리닝 하는 방법으로 적절하지 못하며, 진단용 이미지 분석은 작은 암조직에 대하여 정밀도가 떨어지는 문제점이 있다.
이에 따라, 잠재적인 암 환자에 대하여 저렴하면서도 신속한 스크리닝 방법으로서 암에 특이적인 바이오마커에 대한 탐색이 지속되어 왔다.
암의 초기는 유전적인 원인이나 환경적인 요인 등에 의해 세포 유전자 변이가 일어나고, 이 변이에 의해 단백질의 발현에 변동이 생기게 된다. 이에 따라, 특정 단백질의 발현이 암에 따라 증감하게 된다. 바이오마커를 탐색하는 방법에는 지노믹스 기법, 프로테오믹스 기법, 메타볼로믹 기법, 기타 복합적인 기법 등이 있다. 이 중 프로테오믹스 방법을 이용한 바이오마커를 탐색하는 것은 암 세포와 정상 세포의 단백질 프로파일을 비교할 수 있으며, 기존의 면역학적인 방법(예를 들면 항원 항체 반응을 이용하는 방법 등)을 이용하여 단백질을 정량화하는 것이 가능하다는 장점이 있다.
단백질을 이용하는 바이오마커의 경우, 바이오마커에 특이적으로 결합하는 항체를 활용한 키트를 통해서 각 바이오마커의 발현량 정보를 구할 수 있다. 이러한 발현량 정보를 통하여 암 환자와 정상인을 구분하는 규칙을 바이오마커를 활용한 암 진단 모델이 된다. 암 진단 모델은 다수의 암 환자와 정상인으로 모집단을 구성하고, 그 모집단에 속한 사람들을 대상으로 각 바이오마커의 발현량 정보를 수집하고, 발현량 정보로 암 진단 모델을 수립한다. 이때, 상기 모델을 수립하고, 실제로 활용하는데는 몇가지 문제가 있다. 그 중 대표적인 것이 측정에 따르는 이상치가 암 진단 모델에 반영되는 경우, 그 이상치 때문에 암 진단 모델에서 왜곡이 발생할 가능성이 높다는 것이다. 암 진단 모델에서 왜곡이 발생하면, 암 진단 모델을 사용할 경우에도 신뢰성과 정확도 등에서 여러 문제가 생기게 된다.
한편, 개별적인 바이오마커를 사용하여 암 진단을 수행하는 방법과 기술은 꾸준히 개발되어 오고 있지만, 단일 바이오마커를 사용하는 경우, 민감도, 특이도나 정확도 등과 같은 평가 지표를 높은 수준에서 충족시키기 어려운 암이 다수 있다. 이때, 특정한 암이 특이적으로 발현되는 복수 개의 바이오마커를 통한 복합 바이오마커를 사용할 수 있는데, 이 경우 암 진단 모델이 그 모델에 참여하는 바이오마커의 개수가 높을수록 복잡도가 증가되게 된다. 이 경우, 이상치를 효과적으로 통제하지 않으면, 복합 바이오마커를 사용하는 암 진단 모델의 신뢰성이 약하게 된다.
이에 따라, 바이오마커별 발현량 정보에서 이상치가 내재되어 있더라도, 그 이상치의 영향을 암 진단 모델의 생성이나 암 진단 모델의 적용에서 최소화하여, 신뢰성 높은 암 진단 방법, 암 진단 모델 수립 방법, 암 진단 시스템의 개발이 절실히 요구되어 왔다.
본 발명이 해결하려는 첫번째 기술적 과제는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 정보 생성 방법을 제시하는 것이다.
본 발명이 해결하려는 두번째 기술적 과제는 복합 바이오마커를 활용한 암 진단 모델을 생성 방법을 제시하는 것이다.
본 발명이 해결하려는 세번째 기술적 과제는 암 진단 예측을 수행하는 암 진단 예측 시스템을 제시하는 것이다.
본 발명이 해결하려는 네번째 기술적 과제는 바이오마커별 변수값 처리 방법을 제시하는 것이다.
본 발명이 해결하려는 다섯번째 기술적 과제는 복합 바이오마커에 대한 영향력 정보 처리 방법을 제시하는 것이다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법에 있어서, (A) 암 진단 대상자의 신체에서 분리하여 채취한 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 복수 개의 개별 바이오마커별 발현량 정보 또는 적어도 한 쌍의 바이오마커별 발현량 비율 정보를 입수하는 단계; (B) 상기 발현량 정보 또는 상기 발현량 비율 정보를 의사 결정 나무를 이용한 앙상블 기법의 partial dependency plot 내지는 partial dependency 함수 관계를 이용하여 변환하여 변환된 발현량 정보 또는 변환된 발현량 비율 정보를 생성하는 단계; 및 (C) 상기 변환된 발현량 정보 또는 상기 변환된 발현량 비율 정보를 기설정된 암 진단 모델에 입력하여 암 진단 정보를 생성하는 단계;를 포함하는 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법을 제시한다.
상기 암 진단 모델은 로지스틱 회귀 모델인 것이 바람직하다.
상기 로지스틱 회귀 모델은 리지 벌점 함수(Ridge Penalty)를 사용한 것인 것이 바람직하다.
상기 앙상블 기법은 Boosting 및 Random Forest 중 어느 하나의 방법인 것이 바람직하다.
상기 암 진단 정보는 바이오마커별 암 진단 기여도에 대한 정보를 추가적으로 생성하는 것이며, 상기 바이오마커별 암 진단 기여도는 상기 암 진단 모델에 포함된 적어도 하나 이상의 개별 바이오마커에 대하여 로지스틱 모형으로 구한 기설정된 판별함수를 사용하여 암에 미치는 영향의 정도를 제공하는 것인 것이 바람직하다.
상기 바이오마커별 질병 진단 기여도는 coefficient plot의 형태로 제시되는 것이 바람직하다.
상기 복합 바이오마커에 특이적으로 결합하는 항체를 포함하는 암 진단 키트에서 상기 바이오마커별 발현량 정보를 독출하는 제3의 시스템에서 실시되거나, 상기 제3의 시스템과 유무선 네트워크로 연결되며, 상기 제3의 시스템으로부터 상기 바이오마커별 발현량 정보를 전송받는 암 진단 시스템에서 실시되는 것인 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 복합 바이오마커를 활용하여 상기 암 진단 모델을 생성하는 방법에 있어서, 복수 명의 암 환자와 복수 명의 정상인으로 구성되는 대상자를 대상으로, 대상자의 신체에서 분리하여 채취한 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 복수 개의 바이오마커별 발현량 정보를 생성하고, 상기 생성된 발현량 정보를 기설정된 변환을 수행하는 단계; 상기 대상자 중 선택된 일부 대상자를 모델 생성 대상자군으로 하여 상기 변환된 바이오마커별 발현량 정보로 의사 결정 나무를 활용하여 복수 개의 분류기(classifier)를 생성하고, 상기 생성된 복수 개의 분류기를 접합하여 적어도 하나 이상의 바이오마커가 참여하는 복수 개의 암 진단 모델 후보를 생성하는 단계; 상기 대상자 중 모델 생성 대상자군에 포함되지 않은 대상자를 모델 검증 대상자군으로 하여, 모델 검증 대상자의 변환이 수행된 상기 바이오마커별 발현량 정보로 상기 암 진단 모델 후보에 입력하고, 상기 모델 검증 대상자별 암 진단 정보를 생성하는 단계; 및 상기 암 진단 정보에 대한 기 설정된 평가를 수행하고, 기설정된 평가 지표를 충족시키는 암 진단 모델을 선별하는 단계;를 포함하는 것을 특징으로 하는 변환된 바이오마커별 발현량 정보를 사용하는 복합 바이오마커를 활용한 암 진단 모델을 생성 방법을 제시한다.
상기 발현량 정보에는 적어도 한 쌍의 바이오마커별 발현량 비율 정보가 더 포함될 수 있는 것인 것이 바람직하다.
상기 기설정된 변환을 수행하는 것은 상기 발현량 정보를 의사 결정 나무를 이용한 앙상블 기법의 partial dependency plot 내지는 partial dependency 함수 관계를 이용하여 변환하는 것인 것이 바람직하다.
상기 암 진단 모델은 로지스틱 회귀 모델인 것이 바람직하다.
상기 기설정된 평가 지표는 정확도, 특이도, 민감도, ROC 커브의 면적 중 어느 하나 이상인 것이 바람직하다.
상기 앙상블 기법은 Boosting 및 Random Forest 중 어느 하나의 방법인 것이 바람직하다.
상기 암 진단 정보는 바이오마커별 암 진단 기여도에 대한 정보를 추가적으로 생성하는 것이며, 상기 바이오마커별 암 진단 기여도는 상기 암 진단 모델에 포함된 적어도 하나 이상의 개별 바이오마커에 대하여 로지스틱 모형으로 구한 기설정된 판별함수를 사용하여 암에 미치는 영향의 정도를 제공하는 것인 것이 바람직하다.
상기 바이오마커별 질병 진단 기여도는 coefficient plot의 형태로 제시되는 것이 바람직하다.
상기 복합 바이오마커에 특이적으로 결합하는 항체를 포함하는 암 진단 키트에서 상기 바이오마커별 발현량 정보를 독출하는 제3의 시스템에서 실시되거나, 상기 제3의 시스템과 유무선 네트워크로 연결되며, 상기 제3의 시스템으로부터 상기 바이오마커별 발현량 정보를 전송받는 암 진단 시스템에서 실시되는 것인 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 진단 키트를 직접 또는 상기 진단 키트에서 기인하거나 독출한 정보를 이용하여 암 진단 예측을 수행하는 암 진단 예측 시스템에 있어서, 대상자의 신체에서 분리하여 채취한 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 측정된 상기 바이오마커 조합을 구성하는 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수하는 정보 입수 모듈; 상기 발현량 정보 또는 발현량 비율 정보에 대하여 기설정된 적어도 하나 이상의 변환 모듈; 상기 입수된 상기 발현량 정보 또는 발현량 비율 정보를 기설정된 암 진단 예측 모델로 처리하는 암 진단 예측 모듈;및 상기 암 진단 예측 모듈로부터 적어도 하나 이상의 암 진단 예측 정보를 생성하는 암 진단 예측 정보 생성 모듈;을 포함하며, 상기 변환 모듈은 상기 발현량 정보에 대한 발현량 변환 정보 또는 상기 발현량 비율 정보에 대한 발현량 비율 변환 정보를 우선 생성하는 것이며, 상기 암 진단 예측 모델은 상기 생성된 발현량 변환 정보 또는 상기 발현량 비율 변환 정보를 입력값으로 입력 받는 것인 것을 특징으로 하는 암 진단 예측을 수행하는 암 진단 예측 시스템을 제시한다.
상기 정보 입수 모듈이 상기 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수하는 방법은, 상기 암 진단 예측 시스템이 상기 진단 키트로부터 직접 입수하는 방법, 상기 암 진단 예측 시스템과 유무선 네트워크를 통하여 연결된 상기 진단 키트의 상기 바이오마커별 발현량 정보를 독출할 수 있는 제3의 시스템으로부터 전송 받는 방식으로 입수하는 방법 및 상기 암 진단 예측 시스템과 유무선 네트워크로 연결된 상기 바이오마커별 발현량 정보를 입수하는 자의 컴퓨터로부터 전송되는 방식으로 입수하는 방법 중 어느 하나 이상의 방법이 실시되는 것인 것이 바람직하다.
상기 변환 모듈은 tree를 이용한 앙상블 기법의 partial dependence plot 또는 partial dependency 함수 관계를 이용하여 발현량 변환 정보 또는 발현량 비율 변환 정보를 생성하는 것인 것이 바람직하다.
상기 암 진단 예측 모델은 로지스틱 모형인 것이며, 상기 로지스틱 모형은 상기 발현량 변환 정보 또는 상기 발현량 비율 변환 정보를 입력 받아 암으로 분류되는 확률값을 추정하는 기설정된 함수식인 것이 바람직하다.
상기 암 진단 예측 정보 생성 모듈은 바이오마커별 질병 진단 기여도에 대한 정보를 추가적으로 생성하는 것이며, 상기 바이오마커별 질병 진단 기여도는 상기 바이오마커 조합에 포함된 바이오마커에 대하여 로지스틱 모형으로 구한 기설정된 판별함수를 사용하여 암에 미치는 영향의 정도를 coefficient plot의 형태로 제시되는 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 암 진단을 위한 적어도 2 이상의 바이오마커를 포함하는 복합 바이오마커 정보를 처리하는 암/정상 예측 통계 모델과 관련된 바이오마커별 변수값 처리 방법에 있어서, 적어도 2 이상의 샘플에 대하여 각 샘플별로 상기 바이오마커별 오리지널 변수값을 입수하는 단계; 상기 바이오마커별 오리지널 입력 변수값으로 기설정된 처리를 수행하여 상기 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 구성하는 단계; 상기 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 이용하여 상기 바이오마커별 오리지널 변수값에 대한 상기 바이오마커별 변환 변수값을 생성하는 단계; 상기 바이오마커별 변환 변수값을 기설정된 암/정상 예측 통계 모델의 생성 또는 암/정상 예측 통계 모델의 실행에 사용하는 단계;를 포함하는 것이며, 상기 partial dependence plot 또는 partial dependence 함수 관계는 앙상블 기법을 활용한 것이며, 상기 앙상블 기법은 Boosting 알고리즘 기법과 Random Forest 알고리즘 기법 중 어느 하나 이상의 기법인 것을 특징으로 하는 바이오마커별 변수값 처리 방법을 제시한다.
상기 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 구성하는 것은 상기 복합 바이오마커를 구성하는 바이오마커들 중에서 상기 바이오마커를 제외한 타 바이오마커들에 대한 오리지널 변수값에 대해서 평균을 취해주는 방식으로 구성하는 것인 것이 바람직하다.
상기 오리지널 변수값은 상기 바이오마커별 발현량 정보 또는 2 이상의 바이오마커의 발현량 비율 정도 중 어느 하나 이상인 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 암 진단을 위한 적어도 2 이상의 바이오마커를 포함하는 복합 바이오마커 정보를 처리하는 암/정상 예측 통계 모델과 관련된 바이오마커별 영향력 정보 처리 방법에 있어서, 상기 복합 바이오마커를 구성하는 개별 바이오마커별로 영향력 정보를 생성하는 단계; 및 상기 복합 바이오마커를 구성하는 개별 바이오마커별로 영향력 정보를 개별 바이오마커별로 시각화하는 정보를 생성하는 단계;를 포함하며, 상기 개별 바이오마커별 영향력은 로지스틱 모형으로부터 구한 판별 함수로 결정되는 것이며, 상기 판별 함수는 하기 수식 1으로 표현되는 것인 것이며, 상기 로지스틱 모형은 0과 1 사이의 값을 가지며, 상기 로지스틱 모형에 포함된 회귀 계수의 추정은 ridge 함수를 사용하는 것인 것을 특징으로 하는 복합 바이오마커에 대한 영향력 정보 처리 방법을 제시한다.
[수식 1]
상기 g(x)는 partial dependence plot 또는 partial dependency 함수 관계를 이용하여 상기 바이오마커별 오리지널 변수값에 대한 상기 바이오마커별 변환 변수값을 사용하는 것인 것이 바람직하다.
상기 시각화는 2차원 평면의 차트나 그래프로 표시되는 것인 것이 바람직하다.
본 발명을 활용하면, 단일 바이오마커에 비하여, 암 진단 능력이 높은 복합 바이오마커를 구성 및 그 복합 바이오마커 정보를 활용한 암 진단 방법이 실시될 수 있으며, 효율적으로 정확도 높은 암 진단 모델을 생성할 수 있다.
본 발명을 활용하면 복합 바이오마커의 발현량 정보를 변환 처리함으로써, 암 진단 모델에 작용되는 이상치의 영향력을 최소화하여, 견고하고 신뢰성 있는 암 진단 모델, 암 진단 방법 및 암 진단 시스템을 구축할 수 있게 된다.
본 발명을 활용하면, 암 진단에 사용된 복합 바이오마커 중 어느 바이오마커가 암 진단에 어느 정도 기여했는지에 관한 바이오마커별 질병 진단 기여도가 제새될 수 있다.
본 발명은 복합적인 바이오마커를 사용하는 암 진단 서비스 일반에 널리 사용될 수 있다.
도 1은 폐암 진단 바이오마커 후보군들에서 폐암 진단에 효과적인 복합 바이오마커들을 선별하는 방법에 관한 일 실시예적 흐름도이다.
도 2는 폐암 진단을 위해 복합 바이오마커 후보군들에 대한 랜덤 포리스트 모델 생성하는 일 실시예적 방법에 대한 흐름도이다.
도 3은 복수 개의 바이오마커들을 활용한 의사 결정 나무(decision tree)의 생성 방법에 대한 일 실시예적 개념도이다.
도 4는 평가 지표로서 ROC 커브를 생성하는 방법에 대한 일 실시예적 도면이다.
도 5는 RANTES의 partial dependency plot에 대한 일실시예적 도면이다.
도 6은 RANTES에 관한 암환자와 정상인 사람들의 boxplot에 대한 일실시예적 도면이다.
도 7는 Cyfra21.1의 partial dependency plot에 대한 일실시예적 도면이다.
도 8은 Cyfra21.1에 관한 암환자와 정상인 사람들의 boxplot에 대한 일실시예적 도면이다.
도 9는 A1AT의 partial dependency plot에 대한 일실시예적 도면이다.
도 10은 A1AT에 관한 암환자와 정상인 사람들의 boxplot에 대한 일실시예적 도면이다.
도 11은 본 발명의 CP(Coeffiecient Plot)의 일실시예적 구현예에 관한 도면이다.
도 12는 2 이상의 바이오마커로 구성되는 복합 바이오마커 조합을 선별하는 일실시예적 방법에 관한 도면이다.
도 13은 복합 바이오마커 조합을 선별하는 다른 일실시예적 방법에 관한 도면이다.
도 14는 본 발명의 폐암 진단 시스템의 구성 및 타 정보 제공자단과의 연결 관계에 관한 일실시예적 방법에 관한 도면이다.
도 15는 본 발명의 폐암 진단 시스템의 폐암 진단 정보 생성 방법에 관한 일실시예적 방법에 관한 도면이다.
도 16은 본 발명의 폐암 진단 시스템의 변환 모듈의 Partial Dependency Plot/함수 관계 생성부의 변환 변수값 생성 방법 및 그 생성된 변환 변수값을 본 발명의 폐암 진단 시스템이 사용하는 방법에 관한 일실시예적 방법에 관한 도면이다.
도 17은 본 발명의 폐암 진단 시스템의 CP 정보 생성부가 CP 정보를 생성하는 일실시예적 방법에 관한 도면이다.
도 18은 본 발명의 복합 바이오마커군을 구성하는 바이오마커별 정상 샘플과 암 샘플에 대한 boxplot이다.
도 2는 폐암 진단을 위해 복합 바이오마커 후보군들에 대한 랜덤 포리스트 모델 생성하는 일 실시예적 방법에 대한 흐름도이다.
도 3은 복수 개의 바이오마커들을 활용한 의사 결정 나무(decision tree)의 생성 방법에 대한 일 실시예적 개념도이다.
도 4는 평가 지표로서 ROC 커브를 생성하는 방법에 대한 일 실시예적 도면이다.
도 5는 RANTES의 partial dependency plot에 대한 일실시예적 도면이다.
도 6은 RANTES에 관한 암환자와 정상인 사람들의 boxplot에 대한 일실시예적 도면이다.
도 7는 Cyfra21.1의 partial dependency plot에 대한 일실시예적 도면이다.
도 8은 Cyfra21.1에 관한 암환자와 정상인 사람들의 boxplot에 대한 일실시예적 도면이다.
도 9는 A1AT의 partial dependency plot에 대한 일실시예적 도면이다.
도 10은 A1AT에 관한 암환자와 정상인 사람들의 boxplot에 대한 일실시예적 도면이다.
도 11은 본 발명의 CP(Coeffiecient Plot)의 일실시예적 구현예에 관한 도면이다.
도 12는 2 이상의 바이오마커로 구성되는 복합 바이오마커 조합을 선별하는 일실시예적 방법에 관한 도면이다.
도 13은 복합 바이오마커 조합을 선별하는 다른 일실시예적 방법에 관한 도면이다.
도 14는 본 발명의 폐암 진단 시스템의 구성 및 타 정보 제공자단과의 연결 관계에 관한 일실시예적 방법에 관한 도면이다.
도 15는 본 발명의 폐암 진단 시스템의 폐암 진단 정보 생성 방법에 관한 일실시예적 방법에 관한 도면이다.
도 16은 본 발명의 폐암 진단 시스템의 변환 모듈의 Partial Dependency Plot/함수 관계 생성부의 변환 변수값 생성 방법 및 그 생성된 변환 변수값을 본 발명의 폐암 진단 시스템이 사용하는 방법에 관한 일실시예적 방법에 관한 도면이다.
도 17은 본 발명의 폐암 진단 시스템의 CP 정보 생성부가 CP 정보를 생성하는 일실시예적 방법에 관한 도면이다.
도 18은 본 발명의 복합 바이오마커군을 구성하는 바이오마커별 정상 샘플과 암 샘플에 대한 boxplot이다.
이하, 도면을 참조하면서 상세히 설명한다.
도 1은 폐암 진단 바이오마커 후보군들에서 폐암 진단에 효과적인 바이오마커들을 선별하는 방법에 관한 일 실시예적 흐름도이다. 폐암 진단에 효과적인 바이오마커들을 선별하는 방법은 우선적으로 폐암 바이오마커 후보군에 대한 샘플별 변수값 생성(S11)하고, 폐암 바이오마커 후보군 중에서 폐암 예측 모델에 투입할 바이오마커군 선별(S12)한 다음, 선별된 폐암 바이오마커군에 대한 복합 바이오마커 조합 생성(S13)하고, 생성된 복합 바이오마커 조합별 중에서 폐암 진단 능력이 뛰어난 복합 바이오마커 조합 선별(S14)하는 과정을 거친다. 이하, 상세하게 설명한다.
복합 바이오마커의 후보를 찾기 위하여, 우선적으로 폐암 진단에 효과가 있는 바이오마커를 선택하는 것이 필요하다. 이를 위해, 우선적으로 정상적인 사람 및 폐암 질환 환자의 혈청 시료를 수득하여 정상인과 폐암 환자에서 단백질들을 발현량을 RBM 키트, Millipore키트 및 본 발명자들이 속한 집단에서 제조한 키트를 이용하여 각각의 프로토콜을 이용하여 측정하였으며, 측정 결과의 데이터를 구축하였다. 본 발명의 실험을 위해 정상인 128명(남자 78명, 여자 50명)과 폐암 환자 121명(남자 78명, 여자 43명)을 대상으로 하였다. 연령 분포를 보면 정상인의 경우 나이는 41세 ~ 65세(mean : 50.3, median : 48)였으며, 폐암 환자 나이는 35세 ~ 86세(mean : 64.7, median : 66)였다. 폐암 환자의 병기별 분포는 1기-83명, 2기-14명, 3기-21명, 4기-3명이었다. 그리고 실험 대상과 별개로 분류모델 검증을 위해, 블라인드 테스트에 정상인 37명(남자 16명, 여자 21명)과 폐암 환자 25명(남자 10명, 여자 15명)을 대상으로 하였다. 상기 정상인 또는 폐암 환자로부터 Vacutainer SST Ⅱ tube(Becton Dickinson)에 말초혈액 5 ㎖을 채취하여 상온에 한 시간 동안 둔 후, 3000 g에서 5분 동안 원심 분리한 후 상층액을 취해 혈청을 얻었으며 사용하기 전까지 -80℃에 보관하였다.
본 발명자들은 A1AT(alpha-1-antitrypsin), A2M(alpha-2 macroglobulin), DD(D-dimer), PAI-1 (total plasminogen activator inhibitor-1), VN(vitronectin), ApoA4 (apolipoprotein-A4), Hemo(hemoglobin), proApoA1(proapolipoprotein-A1), VDBP(vitamin D-binding protein), ApoA2(apolipoprotein-A2), ApoC2(apolipoprotein-C2), ApoC3 (apolipoprotein-C3), sICAM-1(soluble intercellular adhesion molecule-1), Svcam-1(soluble vascular cell adhesion molecule-1), IL-6(interleukin-6), RANTES(regulated upon activation normal T cell expressed and secreted), AFP(alpha-fetoprotein), CA125(cancer antigen 125), CA19-9(carbohydrate antigen 19-9), CEA(Carcinoembryonic antigen), f-PSA(prostate specific antigen, free), PSA(prostate specific antigen, total), CYFRA21-1(cytokeratin 19 fragment antigen 21-1), EGFR(epidermal growth factor receptor), IGF-1(insulin-like growth factor-1, free), ApoA1(apolipoprotein-A1), B2M(beta-2 microglobulin), CRP(C-reactive protein), Hp(haptoglobin), TTR(transthyretin) 등 30가지 단백질을 분석하기 위하여 여러 제조사로부터 키트 혹은 항체를 구입하거나 항체를 위탁 제조하였다. 항체, 키트, 표준물질 또는 시약의 구입처 등과 같은 정보는 하기 표1 내지 표3과 같다.
바이오마커 | 표준물질 제조사 | 대응 항체 제조사1 | 대응 항체 제조사2 |
A1AT | Sigma | Acris | Biodesign |
A2M | Calbiochem | R&D | affinity bioreagents |
DD | Abcam | Biodesign | Biodesign |
PAI-1 | Calbiochem | Abcam | USBiological |
VN | Biodesign | Biodesign | Chemicon |
ApoA4 | BIOINFRA | Santa Cruz | AB frontier(주문제작) |
Hemo | Sigma | Biodesign | Bethyl |
proApoA1 | BIOINFRA | Biodesign | Biodesign 혹은 Genscript(주문제작) |
VDBP | Biodesign | Abcam | Abcam |
바이오마커 | 제품명 | 제조사 |
ApoA2 | MILLIPLEX Kit Human Apolipoprotein | Millipore |
ApoC2 | MILLIPLEX Kit Human Apolipoprotein | Millipore |
ApoC3 | MILLIPLEX Kit Human Apolipoprotein | Millipore |
sICAM-1 | MILLIPLEX Kit Human Cardiovascular Disease panel 1 | Millipore |
Svcam-1 | MILLIPLEX Kit Human Cardiovascular Disease panel 1 | Millipore |
IL-6 | MILLIPLEX Kit Human Cytokine/Chemokine 2 | Millipore |
RANTES | MILLIPLEX Kit Human Cytokine/Chemokine 1 | Millipore |
AFP | RBM Cancer Antigen Panel 1 | RBM |
CA125 | RBM Cancer Antigen Panel 1 | RBM |
CA19-9 | RBM Cancer Antigen Panel 1 | RBM |
CEA | RBM Cancer Antigen Panel 1 | RBM |
f-PSA | RBM Cancer Antigen Panel 1 | RBM |
PSA | RBM Cancer Antigen Panel 1 | RBM |
CYFRA21-1 | TM-CYFRA21.1 ELISA kit | DRG Diagnostics |
EGFR | DuoSet IC ELISA | R&D |
IGF-1 | DuoSet IC ELISA | R&D |
바이오마커 | 주시약 | 표준물질 | 제조사 |
ApoA1 | N Antiserum to human Apolipoprotein | N Apolipoprotein standard SL | Siemens |
B2M | N Latex beta2-microglobulin | N Protein standard SL | Siemens |
CRP | CardioPhase hsCRP | N Rheumatology standard SL | Siemens |
Hp | N Antiserum to human Haptoglobin (SMN 10446304) | N Protein standard SL | Siemens |
TTR | N Antiserum to human PreAlbumin | N Protein standard SL | Siemens |
표준 단백질의 경우, ApoA2, ApoC2, ApoC3, sICAM-1, Svcam-1, IL-6, RANTES 단백질은 Millipore사의 키트에 포함된 것, AFP, CA125, CA19-9, CEA, f-PSA, PSA 단백질은 RBM사의 키트에 포함된 것, CYFRA21-1 단백질은 DRG Diagnostics사의 키트에 포함된 것, EGFR, IGF-1 단백질은 R&D사의 키트에 포함된 것을 사용하였고, ApoA1, B2M, CRP, Hp, TTR 단백질은 Siemens사에서 구입하여 사용하였고, A1AT, Hemo 단백질은 Sigma사에서 구입하여 사용하였고 , A2M, PAI-1 단백질은 Calbiochem사에서 구입하여 사용하였고, DD 단백질은 Abcam에서 구입하여 사용하였고, VN, VDBP 단백질은 Biodesign사에서 구입하여 사용하였고 ApoA4, proApoA1 단백질은 바이오인프라(한국)에서 제조하여 사용하였다.
필요한 경우 항체결합 미세구체를 다음과 같은 방법으로 제조하였다. 먼저 미세구체 저장액(Microsphere stock solution; Hitachi, Japan)을 볼텍스(vortex)한 후 음파 용기(sonification bath; Sonicor Instrument Corporation, USA)에서 20초 동안 현탁하였다. 2 × 106개의 미세구체를 마이크로튜브(microtube)에 옮겨 원심분리로 상층액을 제거한 후, 3차 증류수 100 ㎕로 세척하고 다시 0.1M 인산나트륨 완충용액(Sodium phosphate buffer; pH 6.2) 80 ㎕에 재현탁하였다. 이후, 50 ㎎/㎖의 N-하이드록시-설포숙시니마이드(N-hydroxy-sulfosuccinimide, Sulfo-NHS) 및 1-에틸-3-(3-디메틸아미노프로필)-카르보디이미드 하이드로클로라이드(1-ethyl-3-(3-dimethylaminopropyl)-carbodiimide hydrochloride)(Pierce, USA)를 각각 10 ㎕씩 차례로 처리한 후 실온에서 20분 동안 섞어주었고, 원심분리로 상층액을 제거한 다음 50 mM MES, pH 5.0으로 두 번 세척하였다.
이어, 상기 카복실기 활성화된 미세구체를 50 mM MES 400 ㎕로 재현탁(resuspension)한 후, 결합시킬 25 ㎍의 항체를 포함한 50 mM MES 100 ㎕를 첨가하여 섞어준 후 실온에서 두 시간 동안 섞어주었다. 상기 반응은 암실에서 실행하였다. 항체 결합 반응이 끝난 미세구체는 원심분리를 이용하여 500 ㎕ PBS-TBN[PBS, 1% BSA, 0.02% Tween, 20-0.05% 소듐 아자이드(sodium azide)]으로 두 번 세척하였고, 혈구 계산기(hemocytometer)로 개수를 측정하였다. 상기 항체 결합한 미세구체는 1 × 106개/500 ㎕ PBS-TBN 농도로 4℃의 암실에서 보관하였다.
이어, 상기에서 만들어진 항체 결합 미세구체의 항체 결합 효율을 측정하기 위해 상기 항체 결합 미세구체를 20초 동안 볼텍스 & 소니케이션 한 후, 필터형 바닥 96-웰 마이크로플레이트에 웰당 2,000개 미세구체를 넣고 미세구체에 결합된 항체의 종(species)에 맞는, PE(Phycoerythrin)가 결합된 2차 항체(anti-antibody antibodyPE conjugate, Jackson Immunoresearch, USA)를 2% BSA/PBS 용액에 1/10로 희석하여 50 ㎕/웰로 넣고 실온에서 30분 동안 섞어주었다. 상기 반응은 빛이 들어가지 않게 암실에서 실행하였다. 반응이 끝난 후 PBST로 2번 세척하였고 LuminexTM200(Luminex, USA)으로 읽어 MFI 값이 10,000 이상임을 확인하였다.
이어, 검출(detection) 항체는 바이오틴화(biotinylation)시킨 항체를 이용하였다. 구체적으로, EZ-Link Sulfo-NHS-Biotinylation 키트(Pierce, USA)를 이용하여 제조사의 방법의 따라 바이오틴화 반응을 수행하였고, 바이오틴(biotin) 결합의 정도는 키트에 포함된 HABA(4'-hydroxyazobenzene-2-carboxylic acid)를 이용하여 키트 제조사에서 지시한 방법에 따라 수행함으로써 확인하였다. 그 결과, 항체 하나당 결합된 바이오틴양은 8 ~ 12 개로 측정되었다.
이어, 개발된 분석방법은 검출 항체의 농도와 실험 반응시간을 더 최적화하였고, 민감도(sensitivity)는 연속 희석한 바이오마커의 분석 측정 수치로 확인하였다. 인트라-어세이 변이성(Intra-assay variability)은 9개의 다른 농도의 혈청 샘플을 12 웰(well)/1 플레이트(plate) 씩 2개의 플레이트로 3번의 다른 시간대에 실험하여 나온 측정치로 CV(coefficient of variation)를 계산하여 확인하였고, 5 ~ 15%로 평균 10%로 계산되었다. 개발된 키트는 교차반응(cross-reactivity)이 없음을 확인하였다.
RBM사의 프로토콜에 따라 AFP, CA125, CA19-9, CEA, f-PSA, PSA 의 면역분석을 96웰(well)의 V형 바닥 마이크로플레이트에서 수행하였다. 이때 제조사에서 제공한 표준(standard) 단백질은 혈청 기질 희석액(serum matrix diluent)으로 연속 희석하여 사용하였다. 구체적으로, 표준(duplication) 단백질, 대조군(duplication) 혈청 및 환자 혈청을 각각 20 ㎕씩 웰에 첨가하였고, 키트에 포함된 블로킹 완충용액(blocking buffer) 및 비드 혼합액(bead mixture)을 10 ㎕씩 웰에 첨가하여 섞어준 후 실온에서 한 시간 동안 반응시켰다. 검출 항체와 스트렙타비딘(streptavidin)-PE(Jackson Immunoresearch, USA)는 순차적으로 각각 한 시간, 30분씩 반응시켰고, 필터형 바닥 96-웰 마이크로플레이트(Millipore, USA)로 반응액을 옮긴 후 진공 다기관(vacuum manifold)을 이용하여 두번씩 씻어주었다. 키트에 포함된 분석 완충용액 100 ㎕ 처리한 반응액을 96 웰 마이크로플레이트에 옮겨 LuminexTM 200(Luminex, USA)으로 분석하였다. 결과는 업스테이트사(Upstate, USA)의 비드뷰 소프트웨어(beadview software)를 이용하여 5-파라메트릭 커브 피팅(5-parametric-curve fitting)으로 분석하였다.
Millipore사의 프로토콜에 따라 ApoA2, ApoC2, ApoC3, sICAM-1, Svcam-1, IL-6, RANTES 의 면역분석을 필터형 바닥 96-웰 마이크로플 레이트(Millipore, USA)에서 수행하였다. 상기 필터형 바닥 96-웰 마이크로플레이트에 키트에서 제공된 분석 완충용액을 처리하여 10분 동안 블로킹 후 진공 다기관을 이용하여 완충용액을 제거하였다. 이때 제조사에서 제공한 표준(standard) 단백질은 혈청 기질 희석액으로 연속 희석하여 사용하였다. 구체적으로, 표준(duplication) 단백질, 대조군(duplication) 혈청 및 환자 혈청을 25 ㎕씩 웰에 처리하였고, 각 웰에 비드 혼합액 25 ㎕씩을 더한 후 실온에서 한 시간 동안 반응시켰다. 반응 플레이트를 진공 다기관을 이용하여 두 번 씻어준 후 검출 항체 및 스트렙타비딘-PE를 순차적으로 각각 한 시간, 30분씩 반응시켰다. 반응이 끝난 플레이트를 씻어준 다음 키트에서 제공된 분석 완충용액을 100 ㎕ 처리하여 LuminexTM 200으로 분석하였다. 결과는 업스테이트의 비드뷰 소프트웨어를 이용하여 5-파라메트릭 커브 피팅으로 분석하였다.
바이오인프라사의 프로토콜에 따라 A1AT, A2M, DD, PAI-1, VN, ApoA4, Hemo, proApoA1, VDBP의 면역분석을 필터형 바닥 96-웰 마이크로플레이트(Millipore, USA)에서 수행하였다. 상기 필터형 바닥 96-웰 마이크로플레이트에 분석 완충용액(PBS/2% BSA)을 처리하여 10분 동안 블로킹 후 진공 다기관을 이용하여 완충용액을 제거하였다. 이때 제조사에서 제공한 표준(standard) 단백질은 혈청 기질 희석액으로 연속 희석하여 사용하였다. 구체적으로, 표준(duplication) 단백질, 대조군(duplication) 혈청 및 환자 혈청을 25 ㎕씩 웰에 처리하였고, 각 웰에 비드 혼합액 25 ㎕씩을 더한 후 실온에서 한 시간 동안 반응시켰다. 반응 플레이트를 진공 다기관을 이용하여 두 번 씻어준 후 검출 항체 및 스트렙타비딘-PE를 순차적으로 각각 한 시간, 30분씩 반응시켰다. 반응이 끝난 플레이트를 씻어준 다음 키트에서 제공된 분석 완충용액을 100 ㎕ 처리하여 LuminexTM 200으로 분석하였다. 결과는 업스테이트의 비드뷰 소프트웨어를 이용하여 5-파라메트릭 커브 피팅으로 분석하였다.
ApoA1, B2M, CRP, Hp, TTR 은 제조사의 설명서에 따라 Behring Nephelometer II(BNII) System을 이용하여 자동화된 방법으로 분석하였다.
Cyfra21-1은 DRG Diagnostics 사 kit, EGFR,과 IGF-1은 R&D 사의 DuoSet IC ELISA kit에 포함된 사용설명서에 따라 분석하였다.
표 4는 각 샘플에 대한 각 바이오마커별 측정 결과 데이터의 일례를 보여 주며, 이와 같이 폐암 바이오마커 후보군에 대한 샘플별 변수값 생성(S11)한다. 상기 변수값은 상기 바이오마커별 발현량 또는 상기 2 이상의 바이오마커별 발현량의 비율 정보가 될 수 있다.
Sample.ID | class | Age | Sex | Stage.S | ApoA2 | Svcam.1 | ............ | PAI.1.1 |
LC01 | 폐암 | 53 | M | 1 | 5.359 | 2.738 | ............ | 3.171 |
LC04 | 폐암 | 66 | M | 1 | 5.617 | 2.943 | ............ | 2.950 |
LC05 | 폐암 | 60 | M | 3 | 5.385 | 2.914 | ............ | 2.770 |
LC07 | 폐암 | 43 | F | 1 | 5.463 | 2.752 | ............ | 2.743 |
............ | ............ | ............ | ............ | ............ | ............ | ............ | ............ | |
............ | ............ | ............ | ............ | ............ | ............ | ............ | ............ | |
KNF140 | 정상 | 51 | F | 5.600 | 2.936 | ............ | 3.116 | |
KNM378 | Nor | 56 | M | 5.443 | 2.923 | ............ | 3.116 | |
KNF088 | Nor | 48 | F | 5.458 | 2.967 | ............ | 3.036 | |
KNM151 | Nor | 55 | M | 5.542 | 3.077 | ............ | 2.986 |
sample .ID : 실험 시 부여되는 sample 고유 ID이며, 사람을 구분하는 식별자이다. class : sample 분류로 Nor은 정상인 사람, Can은 폐암 환자를 말한다. Age는 나이이며, Sex는 성별, Stage.S는 폐암의 stage 정보(normal : blank, cancer : 1 ~ 4)이며, 그 이후의 칼럼은 바이오마커 list로 실험된 바이오마커들이며, 실험된 바이오마커들의 셀값은 바이오마커 후보의 실험값 나열이며, 표 2에 보이는 입력 데이터의 실험값은 실험값을 로그(log) 변환을 거친 값이다.
구축한 측정 데이터는 바이오인포매틱스(bioinformatics) 및 통계적 분석방법인 R 패키지(R Development Core Team (2007). R: A language and environment for statistical computing. R Foundationfor Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.)를 사용하여 분석하였다. 입력된 데이터에 대하여 랜덤 포리스트 알고리즘을 적용하여 변수 중요도(variable importance)를 결정하고, p-value 랭킹을 도출하고, 바이오마커 간의 상관성 분석(correlation analysis)을 수행하였다. 이와 같이 하여, 랜덤 포리스트 랭킹에 p-value 랭크를 참조하고 상위 랭크에 상관성이 높은 바이오마커가 포함된 경우 하위 랭크의 바이오마커를 배제하는 방법으로 폐암 바이오마커 후보군 중에서 폐암 예측 모델에 투입할 13개의 바이오마커군을 선별(S12) 하였다.
선별된 바이오마커는 A1AT, CYFRA21-1, IGF-1, AFP, proApoA1, EGFR, CEA, RANTES, PAI-1, TTR, CA19-9, ApoA1/ProApoA1, ApoA1이다. 하기 표 7는 선별된 13개의 바이오마커 및 각 개별 바이오마커에 대한 평가 지표값이다. ApoA1/proApoA1는 ApoA1의 발현량을 proApoA1의 발현량으로 나눈 값으로, 발현량 비율값의 일례가 되며, 발현량 비율값이 바이오마커가 될 수 있음을 보여 준다.
바이오마커 | 정확도 (accuracy) |
민감도 (ensitivity) |
특이도 (specificity) |
A1AT | 0.8326 | 0.7731 | 0.8921 |
CYFRA21-1 | 0.8525 | 0.8511 | 0.8538 |
IGF-1 | 0.8035 | 0.8515 | 0.7556 |
RANTES | 0.7644 | 0.7479 | 0.7809 |
proApoA1 | 0.7575 | 0.6859 | 0.8291 |
AFP | 0.7347 | 0.8082 | 0.6612 |
EGFR | 0.7362 | 0.6895 | 0.7829 |
PAI-1 | 0.7315 | 0.6928 | 0.7703 |
TTR | 0.7156 | 0.698 | 0.7332 |
CEA | 0.6869 | 0.7226 | 0.6512 |
CA19-9 | 0.686 | 0.7705 | 0.6015 |
ApoA1/proApoA1 | 0.6583 | 0.4849 | 0.8318 |
ApoA1 | 0.6679 | 0.6364 | 0.6994 |
정확도(Accuracy)는 암, 정상을 맞춘 비율, 민감도(Sensitivity)는 암 환자를 암으로 판정한 비율, 특이도(Specificity)는 정상인 사람을 정상으로 판정한 비율을 말한다. 상기의 평가 지표인 민감도(Sensitivity), 특이도(Specificity) 및 정확도(Accuracy)를 어떻게 구하는지 예시를 통해 설명한다. cut-off=0.5로 하여 설명한다. 하기 표 6와 같은 데이터가 있다고 가정하자.
실제값(Y축) 예측값(X축) | 0(정상) | 1(암) |
0(정상) | 17 | 3 |
1(암) | 0 | 20 |
test set의 수가 40 개(normal 20, cancer 20) 일 때 실제값과 예측값의 교차표를 그리면 위와 같다. 실제값이 0(정상) 인데 0(정상)으로 예측한 개수는 17 이고, 실제값이 0(정상) 인데 1(암)로 예측한 개수는 3개이다. 실제값이 1인데 0으로 예측한 개수는 0 이고, 실제값이 1인데 1로 예측한 개수는 20 이다. Sensitivity는 실제 암환자를 암환자로 예측할 확률이다. 위의 테이블에서는 20명 중에 20명 모두 암으로 예측했으므로 sensitivity는 100% 이다. Specificity는 실제 정상인 사람을 정상으로 예측할 확률로 20명 중에 17명이므로 85%이다. Accuracy는 실제값과 예측값이 같은 비율, 즉, 전체 중에서 정상을 정상으로, 암환자를 암환자로 예측할 확률로 총 40 명 중에서 37명을 올바르게 예측했으므로 Accuracy 는 92.5% 이다.
한편, 본 발명에서는 평가 지표로 민감도, 특이도, 정확도를 사용했으나, 통계학 내지 사회 과학 영역에서 도입되는 다양한 평가 지표가 사용될 수 있음은 물론이다 할 것이며, 본 발명은 이러한 다양한 평가 지표의 도입을 당연히 포함할 수 있으며, 이러한 평가 지표를 통하여 바이오마커를 선별할 수 있음은 물론일 것이다. 한편, 선별된 평가 지표에 대하여 랭킹을 정하는 것은 평가 지표 중 어느 하나를 기준으로 할 수도 있지만, 적어도 하나 이상의 평가 지표를 입력값으로 하는 기설정된 함수 또는 평가 지표와는 독립적으로 계산되는 기설정된 중요도 함수도 가능함은 물론일 것이다. 적어도 하나 이상의 평가 지표를 입력값으로 하는 기설정된 함수 또는 평가 지표와는 독립적으로 계산되는 기설정된 중요도 함수를 평가 함수라 하고, 상기 평가 함수로 계산되는 값을 평가 함수값이라 한다.
도 18은 상기 13개의 바이오마커에 대한 정상 샘플과 암 샘플에 대한 boxplot이다.
하기 표 7는 선별된 13개의 바이오마커, 각 바이오마커의 발현량 패턴 및 특성에 대해 간략히 요약하였다. 발현량 패턴은 각 바이오마커의 발현량 실험값이 높을수록 암일 가능성이 높은 경우와 반대로 낮을수록 암일 가능성이 높은 경우로 대별된다. 하기 표 5에서 Can(높음)은 전자, Can(낮음)은 후자에 각각 대응된다.
바이오마커 | 패턴 | 특성 |
A1AT | Can(높음) | A1AT 은 당단백으로 혈청 trypsin 의 길항제로 알려져 있다. 체내에서는 염증 세포에서 분비하는 여러 분해 효소들 (특히 elastase)로부터 조직을 보호하는 역할을 수행하며 급성 염증기에 증가한다. 결핍 시에는 폐 조직의 파괴를 가져오는 선천성 질환과 관련이 있다. Hamrita 등은 침습성 유선암에서 A1AT 의 증가됨을 보고하였다 . |
AFP | Can(높음) | 성인의 경우 germ cell tumor, 간암에서 가장 높은 빈도로 증가함 그러나 gastic, colon, biliary, pancreatic and lung cancer에서도 증가함(~20% 의 환자에서) |
CA19-9 | Can(높음) | pancreas, biliary tract, colon, stomach, breast carcinoma를 갖는 환자의 대부분에서 증가하므로 임상적으로 이용됨 |
CEA | Can(높음) | GI(gastrointestinal). lung, breast, ovary, uterus 의 암환자 혈청에서 증가함 |
CYFRA21.1 | Can(높음) | CYFRA 21-1 (a cytokeratin 19 fragment) 은 비소세포폐암와의 관련성이 알려져 있으며, Lai 등은 특히 편평상피암에서 높은 혈중 농도 뿐 아니라 병기 및 예후와도 관련 있다고 보고하였다. |
EGFR | Can(낮음) | EGF의 수용체로서 세포의 성장과 분화에 관여함 |
IGF-1 | Can(높음) | IGF-1 은 다양한 기관에 생기는 선암에서 발현이 증가되어 있어 Ouban 등은 자궁내막암(100%), 유방암(87.5%), 난소암(100%), 위암(71.1%), 췌장암(57.1%), 폐암(90.0%), 폐암(84.6%) 등의 조직에서 발현이 잘 되지만, 두경부의 평편상피암 등에서는 발현이 적다고 보고하였다. 또한 Furstenberger 등은 혈중 IGF-1 의 농도와 유방암, 전립선암, 폐암, 폐암 등과 관련성을 보고하였다. 즉, IGF-1은 성장호르몬의 역할에서 중요한 매개체로 증가 시에 세포의 분화 및 성장에 영향을 미치고, 아포토시스 (apoptosis) 를 방해하는 작용을 한다는 것이다. |
PAI-1 | Can(낮음) | tissue plasminogen activator(t-PA)의 inhibitor이며 fibrinolysis과정의 중요한 효소. PAI-1이 증가하면 t-PA의 활성이 줄고 fibfinolytic function에 장애를 초래함. deep vein thrombosis, myocardiac imfarction, normal pregnancy, sepsis에서 증가 |
ApoA1 | Can(낮음) | HDL(High density lipoprotein)의 구성요소이며 LCAT(lectin cholesterol acyltransferase)의 보조인자(cofactor)로 작용하여 조직으로부터 간으로 콜레스테롤을 수송하는 과정에 참여함 |
proApoA1 | Can(낮음) | Apolipoprotein A1의 pro form |
RANTES | Can(낮음) | T-cell, eosinophil, basophils에 대한 chemotactic factor 백혈구를 염증 site로 모이게 함 asthma, allergic rhinitis와 관련 있음 |
TTR | Can(낮음) | Thyroid hormone-binding protein. Probably transports thyroxine from the bloodstream to the brain. Defects in TTR are the cause of amyloidosis type 1 (AMYL1) . A hereditary generalized amyloidosis due to transthyretin amyloid deposition. |
이어, 도 2를 참조하면서, 폐암 진단을 위해 복합 바이오마커를 선별해 내기 위한 방법에 관해 설명한다.
먼저, feature selection으로 1차 선택된 13개 바이오마커들로 조합 가능한 복합 바이오마커 목록을 생성하는 방식으로 선별된 폐암 바이오마커군에 대한 복합 바이오마커 조합을 생성(S13)한다. 상기 복합 바이오마커 조합의 수는 13Cr개(단 14>r>1)로 총 8178개이다. 상기 모든 복합 바이오마커 조합에 대하여 각각의 암/정상 예측 통계 모델을 만들고, 각 모델에서 구해지는 평가 지표(Accuracy, Sensitivity, Specificity등)을 바탕으로 8178개의 통계 모델들을 비교한다.
통계 모델은 모델 생성에 사용된 데이터에 가장 적합한 모형을 제공하는데, 하나의 data set으로 모델을 만들면, 그 통계 모델이 일반적인 데이터에도 잘 작동하는지를 검증할 방법이 없게 된다. 이런 이유로 training set과 test set을 생성한다. 예를 들어 sample size가 200개(암 100개, 정상 100개)일때, random하게 100개(암 50개, 정상 50개)를 추출해서 training set으로 사용하고, 나머지 100개를 test set으로 사용할 수 있다. (샘플 사이즈가 주어질 때, 얼마만큼을 training set으로 사용하고, 얼마만큼을 test set으로 사용할 지는 경우에 따라서 달라 질 수 있는데, 통상적으로 training set의 size가 test set의 size보가 크거나 같다.) 먼저 training set을 사용하여 모델을 만들고, 이 때 만들어진 모델에 test set을 적용(test set의 암/정상을 예측)함으로써, 실제값과 예측값의 비교를 통해 주어진 모델이 얼마나 잘 작동하는지 검증한다. 이러한 "training set으로 모델 생성-test set으로 모델 검증"을 한 번만 하는 것보다 여러 번 반복하는 것이 보다 robust한 모델(특정 데이터에 덜 의존하는 좀 더 global 한 모델)을 만드는데 도움이 된다.
이어, 의사결정 나무(decision tree)에 대해서 설명한다. 의사결정나무는 데이터 마이닝(Data Mining)의 분석 기법 중 하나로 나무의 구조에 근거하여 의사결정 규칙을 찾아내는 방법이라 할 수 있다. 의사 결정나무는 의사 결정 규칙을 도표화하여 관심의 대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측하는 강력하고 널리 쓰이는 분석 기법이다. 의사 결정나무의 일반적인 알고리즘에는 정지규칙 그리고 가지치기 등에서 서로 다른 형성과정을 가지고 있다. 의사결정 나무에서 사용되는 규칙은 다음과 같다.
1.분리기준: 어떤 예측 변수를 이용하여 어떻게 분리하는 것이 목표변수의 분포를 가장 잘 구별해 주는지를 파악하여 자식마디가 형성되는데, 목표 변수의 분포를 구별하는 정도를 순수도 또는 다른 분류 기준을 이용하여 측정하는 것이다.
2.정지기준: 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디 (terminal node)가 되도록 지정하는 규칙을 의미한다.
3.가지치기: 지나치게 많은 마디를 가지는 의사결정나무는 새로운 자료에 적용될 때 예측 오차가 매우 클 가능성이 있다. 따라서 형성된 의사결정나무에서 적절하지 않은 마디를 제거하여 적당한 크기의 부(sub) 나무 구조를 가지는 의사결정 나무를 최종적인 모형으로 선택하는 것이 바람직하다.
목표변수가 이산형인 (discrete, 예를 들어 암/정상) 경우에는 목표변수의 각 범주에 속하는 빈도에 기초하여 분리가 일어나면, 분류나무를 구성하게 된다.
예를 들어 바이오마커 CYFRA21.1 값이 5보다 크면 암 일 확률이 매우 높다고 할 때, 100명중에 CYFRA21.1값 5가 넘는 사람 50명 중에 실제 암환자가 40명 정상 환자가 10명이었고, CYFRA21.1값이 5 미만인 50명 중에 암 환자가 10명 정상이 40명이었다고 할 경우, 이를 요약하면 하기 표 8와 같다.
Cancer | Normal | Total | |
CYFRA21.1>5 | 40 | 10 | 50 |
CYFRA21.1<5 | 10 | 40 | 50 |
상기 표 8은 CYFRA21.1값만 사용한 경우이다. 이렇게 나눠진 데이터에 추가 기준을 적용 (CEA<3, >=3 또는 CEA<4, >=4)함으로써 데이터가 더 나눠지게 되며, 이는 도 3에 잘 나타나 있다. 도 3을 참조하면서 설명한다. 예를 들어, 사람 A의 CYFRA21.1값이 5, CEA값이 4.5이면, 예시로 사용된 decision tree에 따르면, 해당 바이오마커 조합값은 Terminal Node 3에 해당한다. Majority vote원칙에 따르면 Terminal Node 3의 과반수 이상이 "암"이므로 사람 A는 "암"으로 판정된다. 반면에 사람 B의 바이오마커값이 CYFRA21.1=7.0, CEA=2.0이라면 사람 B는 Terminal Node 4에 들어가므로 "정상"으로 판정된다.
이어, RF 알고리즘에 대해서 설명한다. 랜덤 포레스트(Random forest, RF; Breiman L, Machine Learning 45(1):5-32, 2001)는 CART의 의사결정나무의 조합으로 이루어진 Bagging 알고리즘의 일종으로 Leo Breiman과 Adele Cutler에 의해 제안된 방법이다. 각 나무들의 마디들은 고차원을 갖는 자료를 하위 차원들의 작은 조각으로 나눠 빠르게 분류할 수 있도록 구성되어 있다. 이런 각 나무들은 조합(Ensemble)과 투표(Voting)에 의해 최종적인 분류를 완료하게 된다. 확률 분포가 같은 랜덤 벡터(Random Vector)에 의해 생성된 나무들은 각각 독립적으로 구성되고, 구성된 나무들의 개수를 무한으로 가져가면 오분류가 일반화되어 수렴하게 되는데, RF는 불규칙성(Randomness)과 Out-of-bag(Random Selection without Replacement) 기법을 이용하여 Adaboost 만큼의 정확도를 낼 수 있게 하고 경계면과 잡음(Noise)에 강한 성능을 보이며, Bagging과 Boosting 보다 빠르게 수렴하도록 도와주는 효과를 낸다.
RF algorithm은 자체적으로 주어진 데이터로부터 (training data set, test data set)를 복수 개(예를 들어 50개, 이 개수는 옵션으로 사용자가 조정가능함) 만들어서 각각으로부터 decision tree를 생성한다. 이렇게 되면 독립적인 decision tree 가 50개 생성되게 된다. 이렇게 50개의 decision tree를 생성한 뒤에, test set을 넣으면 하나의 test 샘플 당, 50개의 결정(암/정상)을 갖게 되며(각 decision tree로부터 나온 값), 50개의 결정값을 추려서 많은 쪽(majority vote)으로 최종 결과를 갖게 된다. 예를 들어 사람 A의 경우 45개의 decision tree는 암으로 판정하고 5개의 decision tree는 정상으로 판정했다면,vaverage score(전체 50개의 판정중에서 암으로 판정된 비율)=45/50=0.9로 계산되어진다. 이때 암/정상을 구분하는 기준이 되는 cut-off value를 0.5로 가정했을 때 A의 average score 0.9는 0.5보다 크므로 "암"으로 판정된다.
이렇게 여러 개의 통계 모형(RF의 경우는 decision tree)으로부터 나온 결정을 종합하여 하나의 최종 결정으로 이르는 방법을 앙상블(ensemble) 기법이라고 하는데, 본 발명은 이러한 앙상블 기법을 사용하는 것을 특징으로 한다. 한편, RF 알고리즘 이외에도 Boosting 알고리즘도 있는데, 양자 모두 앙상블 기법을 사용하는 면에서는 동등하다. 본 발명 사상을 실행하는데 당업자에게 Boosting 알고리즘도 용이하게 채용할 수도 있음은 물론이다 할 것이며, 본 발명의 실시에 Boosting 알고리즘도 포함됨은 당연할 것이다.
Boosting의 기본적인 아이디어는 복수개의 weak learner가 합해져서 하나의 strong learner를 이룬다는 것이다. 이때의 weak learner는 random guessing 보다 나은 classifier로 accuracy가 0.5 이상인 것을 의미하며 decision tree, logistic regression 등 임의의 통계 classifier가 될 수 있다. Strong learner는 accuracy가 random guessing보다 월등히 좋은 classifier을 의미한다. 그 알고리즘은 다음과 같다.
1. N개의 데이터가 있을 때, 모두 동일하게 Wi=1/N값으로 weight을 준다.
2. 주어진 weight을 이용하여 weak classifer#1을 데이터에 적용한다.
3. Weak classifer#1으로 오분류(misclassified) 된 데이터의 weight은 증가시키고, 정분류(correctly-classified)된 데이터의 weight은 감소시킨다.
4. 3.에서 재계산된(re-calculated) weight을 이용하여 weak classifier #2를 데이터에 적용한다.
5. Weak classifier #2에 의해 오분류된 데이터의 weight은 증가시키고 정분류된 데이터의 weight은 감소시킨다.
이와 같이
Step 1: 주어진 weight을 사용하여 weak classifier 생성,
Step 2: 해당 weak classifier에 의한 오분류/정분류 여부에 따라 weight 재계산하기.
(Step 1.+ Step 2) 작업을 적당한 정지기준이 만족될 때까지 반복한다. 예를 들어 weak classifier10개가 생성되었다고 하자. 그러면 최종 결과는 이 10개의 weak classifier를 종합하여 도출하게 된다.
상기와 같은 방법으로 가능한 모든 복합 바이오마커의 조합인 8178개의 전체 복합 바이오마커 조합에 대하여 각각 복수개의 암/정상 예측 통계 모델을 생성한 다음 최적의 암/정상 예측 통계 모델을 선택하게 된다. 복합도 n인 특정 복합 바이오마커 조합이 있을 경우(X1, X2, ...Xn), n개의 복합 바이오마커가 사용된 샘플 중 일정 샘플을 training set으로 나누고, training set에 속하는 샘플에 대하여, n개의 복합 바이오마커 중 어느 하나 이상이 참여하는 도 3과 같은 복수개의 decision tree를 생성하고, 상기 decision tree를 앙상블 기법을 활용하여 복수개의 암/정상 예측 통계 모델 후보군을 생성한다. 복수개의 암/정상 예측 통계 모델 후보군에 대하여 training set에 참여하지 않은 샘플로 test set을 구성하고, 상기 test set에 대하여, 예측 성능을 검증한다. 예측 성능은 평가 지표 등이 될 수 있다. 전체 샘플을 training set와 test set으로 나누는 방법/조합의 수는 굉장히 많으므로, 상기 암/정상 예측 통계 모델 후보는 다수가 되게 됨은 당연할 것이다.
사람 A의 Avg.Score는 n개의 decision tree에서 나온 n개의 암/정상 판정 중에서 암의 비율을 나타낸다. 하나의 예측 모델은, random forest의 경우, 특정 마커 조합(예를 들면 RANTES+CYFRA21.1) 정보를 사용하여 만들어진 여러 개의 decision tree를 모은 것이 된다.
상기 생성된 암/정상 예측 통계 모델 후보군의 형태는 하기 수식 8과 같은 형태가 될 수 있다. 하기 수식 8과 같은 예측 모델 또는 각 decision tree에 대하여 상기 (X1, X2, ...Xn), n개의 복합 바이오마커가 활용된 샘플들에 대하여 특정된 X값을 투입한다.(물론, 상기 X값(예를 들면 RANTES라는 바이오마커의 발현값 또는 ApoA1/proApoA1 등과 같은 발현값 비율 정보) 또는 X값에 특별한 처리(예를 들면 partial dependency plot/함수관계로 처리한 값) 상기 복수개의 암/정상 예측 통계 모델 후보군 또는 각 decision tree에 샘플의 X값들이 투입되면 각 모델 후보군별 또는 decision tree별로 0(정상) 내지 1(암) 사이 값과 같은 판정값을 가지게 되고, 이들을 평균하면, 하기 표7과 같은 평균값(Avg.Score)가 생성되게 된다. 물론, 샘플마다 암/정상에 대한 정답값을 알고 있으므로, 상기 복수개의 암/정상 예측 통계 모델 후보군 또는 각 decision tree 중에서 어느 모델이 가장 나은 평가 지표를 가지는 지도 판정할 수 있게 된다.
상기 암/정상 예측 통계 모델 후보군 중에서는 앙상블 기법에서 활용되는 상기 복수개의 decision tree를 앙상블 접합한 모델이 다수 있음은 당연할 것이다.
이어, 각각의 암/정상 예측 통계 모델을 통하여, 각 모델마다 하기 표 9와 같은 데이터를 얻는다.
Avg.Score가 0.5를 초과하면 암으로 판정하고, 그렇지 않다면 정상으로 판정한다. 물론, 상기 0.5라는 cut-off는 특수한 예일뿐, 상황에 따라 0과 1사이의 임의의 수로 변경할 수도 있다. 이와 같이 복합 바이오마커에 대하여 Avg.Score를 계산하고, 복합 바이오마커별로 암과 정상 판정이 있게 되면, 표 9와 같은 데이터를 얻을 수 있게 되며, 이 데이터로부터 각 암/정상 예측 통계모델마다의 민감도, 특이도 및 정확도 등과 같은 진단 능력 내지는 예측 능력(performance) 평가 지표값을 생성할 수 있게 된다. RF에서 Average score를 가지고 암인지 정상인지를 판단을 할 때, Average score의 cut-off point 가 필요하게 된다. 즉, Average score 가 몇 이상일 때 암으로 볼 것 인가의 문제로, 위의 예에서는 Average score 가 0.5를 넘으면, 암으로, 그렇지 않으면 정상으로 판정했는데, 이 cut-off 값에 따라서 암/정상 판정이 달라지게 된다. cut-off 값이 커지면, 암으로 판정되는 비율이 줄고, cut-off값이 작아지면 암으로 판정되는 비율이 커진다. 이렇게 암/정상 판정이 영향을 받으면 연쇄적으로 Sensitivity, Specificity값 등 평가 지표값도 달라지게 된다. 따라서, 이 cut-off값을, 변동시키며, 이에 대응되는 평가 지표값(sensitivity, 1-specificity)를 ploting할 수 있다. 예를 들어, cut-off값을 0.01, 0.02,0.03, 0.04, ,...., 0.98,0.99,1이렇게 사용을 했을 때, 대응되는 (sensitivity, 1-specificity)값들을 구할 수 있고 이 값들을 각각 x, y 좌표로 사용하여 2차 평면에 표시할 수 있으며, 이에 대한 예시 도면은 도 4에 나와 있다. 도 4에서 파란 선(sensitivity(Sn), 1-specificity(Sp) 값이 지정되어 있는 선으로, 2차 평면에서 원호 모양으로 되어 있는 선)이 ROC 커브에 해당하는데, 완벽한 통계 모델일수록 이 곡선이 상자의 왼쪽 상위 꼭지점에(좌표로는 x=0.0, y=1.0에 해당)가까워 지게 된다. 이렇게 되면, 커브 아래의 면적(AUC: Area under curve)이 1에 가까워지게 된다. ROC curve는 보다 sensitivity와 specificity 측면에서 동시에 모델의 performance를 비교할 있는 방법으로, 커브 아래 면적이 1에 가까울수록 좋은 통계 모델이라고 말 할 수 있으며, ROC curve 아래 면적값(AUC)으로 performance 평가 지표값을 사용할 수 있고, 이 ROC curve를 사용하여 cut-off 값을 찾기도 한다. .
이어, 생성된 복합 바이오마커 조합별 중에서 폐암 진단 능력이 뛰어난 복합 바이오마커 조합을 선별(S14)한다. 하기에서는 어떤 복합 바이오마커 조합이 더 타당한 조합인지를 판단하는 방법의 일례를 제시한다. 상기 13Cr개의 복합 바이오마커 조합(모든 개별 조합은 1개 이상의 암/정상 예측 통계 모델을 형성한다. 이들 1 개 이상의 암/정상 예측 통계 모델에 대하여 최적의 통계 모델을 선별할 수 있음은 물론이다 할 것이다.)에 대하여 각 통계 모델에서 각 바이오마커별 importance를 계산한다.
Importance는 특정 통계 모델에서 특정 바이오마커가 암/정상 판정에 대한 연관성의 크기를 나타낸다. 도 3에서와 같이 CYFRA21.1과 CEA 두 개의 바이오마커 값을 사용하여 4개의 terminal node(tree의 가장 끝에 달려 있는 node들)가 생성이 되었고, 샘플이 입력되면 이 tree 를 따라가서 최종 도달하는 terminal node의 majority 값에 따라서 암인지 정상인지로 판정이 된다. 처음에 사용된 CYFRA21.1의 값에 의해 sample의 상당부분이 암/정상으로 나뉘어지게 되는데, 이는 CYFRA21.1바이오마커 값은 암/정상과 상당히 큰 연관성을 가지고 있다는 것을 말한다. 이 CYFRA21.1의 importance를 측정하기 위해서, CYFRA21.1값을 random하게 permute한다. 즉, CYFRA21.1값을 마구잡이로 섞은 뒤, 각 환자에게 할당하기 때문에, 암/정상과 CYFRA21.1의 상관 관계는 거의 없어지게 된다. 이렇게 randomly permuted된 데이터를 넣고 decision tree에 넣었을 때 각 terminal node에서의 correct decision ratio(2)와 CYFRA21.1원래 데이터를 사용했을 때 각 terminal node에서의 correct decision ratio(1)간의 차이를 측정하고, 이 값이 CYFRA21.1의 importance가 된다. 암/정상에 따른 확연한 바이오마커 값의 패턴이 존재한다면, 그 패턴을 사용했을 때의 correct decision ratio와 이 바이오마커값이 무시되었을 때 (randomly permuted)의 correct decision ratio가 커지게 된다. 반대로 암/정상과 별 상관 없는 바이오마커라면 원래 데이터를 사용했을 때나 randomly permute되었을 때나 correct decision ratio에 큰 차이가 없게 된다.
상기와 같이 각 통계 모델에서 각 통계 모델에 참여하는 모든 바이오마커의 importance를 계산할 수 있게 되면, 그 통계 모델에서 참여하는 바이오마커들의 importance 랭킹(서열)을 부여할 수 있게 된다. 예를 들면, IGF.1+CYFRA21.1+RANTES라는 바이오마커 조합을 포함하는 통계 모델이 있는 경우, 이 통계 모델에서 바이오마커 IGF.1, CYFRA21.1, 및 RANTES의 importance를 알 수 있게 된다. 예시적으로 importance 랭킹이 CYFRA21.1이 1위, IGF.1이 2위, RANTES가 3위 등이 될 수 있다. 이때, 모든 8178개의 통계 모델에서 각 모델마다에 참여하고 있는 바이오마커마다의 importance값 및 importance 랭킹을 알 수 있을 때, 상기 importance값 및 importance 랭킹을 활용하여 우월한 복합 바이오마커를 선별할 수 있게 된다. importance값 및 importance 랭킹값을 사용하여 우월성 있는 복합 바이오마커를 선별하는 방법은 다양할 수 있으나, 하기와 같은 일 실시예적 방법을 예시적으로 제시한다.
모든 8178개의 통계 모델에서 importance 랭킹 1위 바이오마커 및 랭킹 2위인 바이오마커를 추출할 수 있고, 전체 8178개의 "랭킹 1위 바이오마커+랭킹 2위 바이오마커" 리스트가 만들어 지게 된다. 추출된 "랭킹 1위 바이오마커+랭킹 2위 바이오마커" 각각에 대하여, 각 "랭킹 1위 바이오마커+랭킹 2위 바이오마커"별 빈도를 계산할 수 있게 된다. 이때, "랭킹 1위 바이오마커+랭킹 2위 바이오마커"의 빈도 계산시, 랭킹 1위 바이오마커와 랭킹 2위 바이오마커의 서열이 달라도 동일하게 취급하는 방법(조합 방법)과 서로 다르게 취급하는 방법(순열 방법)이 있을 수 있다. 조합 방법의 경우, "IGF-1+CYFRA21.1"와 "CYFRA21.1 + IGF-1"은 같은 것이 된다. 즉, 모든 통계 모델에서 IGF-1나 CYFRA21.1 둘 중 어느 하나가 1위를 하고, 어느 하나가 2위를 하기만 하면 "IGF-1+CYFRA21.1"는 동일하게 빈도 1이 추가되게 된다. 한편, 순열 방법의 경우에는 IGF-1가 1위를 하고, CYFRA21.1가 2위를 한 모델과 CYFRA21.1 이 1위를 하고, IGF-1가 2위를 한 모델은 별개로 취급되게 된다. 즉, "IGF-1+CYFRA21.1"과 "CYFRA21.1+IGF-1"은 다르게 취급된다.
한편, 상기에서는 조합 방식에서 랭킹 1위 및 2위만이 아닌 랭킹 3위 등과 같이 랭킹 n위까지 포함하여 빈도를 기준으로 중요한 바이오마커 조합을 찾을 수도 있을 것이다. 또는 순열 방식을 적용하여 랭킹 n(n>1)위 까지의 바이오마커 조합에 대하여 빈도를 계산하여 중요한 바이오마커 조합을 생성할 수 있을 것이다.
또한, 랭킹 n위별로 가중치를 부여하여(예를 들어 가중치는 importance값 자체일 수 있으며, 랭킹 1위에는 가중치 1, 랭킹 2위에는 가중치 0.5를 부여하는 방식 등과 같이 가중치를 임의 또는 통계학적 근거에 따라 줄 수도 있을 것이다.) 상기 조합 방식이나 상기 순열 방식에서 빈도 및 가중치가 모두 반영된 중요 바이오마커 조합을 찾을 수도 있을 것이다.
상기와 같은 처리를 통하여, 13Cr개의 복합 바이오마커마다에 대하여, 상대적 우월성 지표값을 계산할 수 있다. 상대적 우월성이란, 특정 복합 바이오마커가 있을 경우, 다른 복합 바이오마커에 비하여 얼마나 큰 우월성을 가지는가를 지표화한 것이다.
한편, 상기 13Cr개의 복합 바이오마커 조합 각각에 대하여 민감도, 특이도, 정확도 등과 같은 performance 등을 계산할 수 있게 되며, 복합 바이오마커 조합에 대한 performance 값으로 최적의 복합 바이오마커를 선택할 수도 있을 것이다. 민감도, 특이도, 정확도 등은 각 복합 바이오마커(각 복합 바이오마커는 통계 모델과 1:1로 대등된다.)의 performance의 일례일 뿐 다른 performance 지표를 산출할 수 있음은 당연할 것이며, ROC 커브의 아래 면적은 그 예가 될 것이다.
복합 바이오마커의 선택 시 복합 바이오마커에 참여하는 단일 바이오마커의 개수(복합도라 한다. 예를 들어 IGF-1+CYFRA21.1의 경우 복합도는 2가 되며, IGF-1+CYFRA21.1+RANTES는 복합도가 3이 된다.)가 증가할수록 performance(performance의 예로 민감도, 특이도, 정확도, ROC 커브의 아래 면적 등의 평가 지표가 사용될 수 있다)가 좋아지는 경향이 있으나, 반대로 실제 제품에 적용되었을 때, 1) 제조 비용의 증가, 2) 데이터 수집, 분석 등 정보 처리 비용/난이도의 증가, 3) 측정값들 간의 통계학적 상관성의 존재 가능성 증가되는 문제가 있을 수 있다. 또한, 특정 바이오마커들의 조합인 복합도 n의 복합 바이오마커만으로도 충분하고도 만족스러운 performance가 나오는 경우, 추가적인 바이오마커들을 복합시킬 경우 net performance(performance 증분)이 크지 않을 수 있다. 따라서, 복합도를 증가시킬 때, performance의 용인 하한값을 넘어서는 경우, net performance 및 복합도 증분에 대한 비용을 고려하여 복합도를 증가시키는 것이 타당할 것이다. 즉, 복합도 증가에 따른 Benefit 변동량/Cost 변동량의 값이 큰 것이 타당할 것이다. 한편, 복합도를 증가시킬 때, 어떤 바이오마커를 사용하는 가는 performance 값으로 판단할 수 있을 것이다. 예를 들면, 5개 정도의 바이오마커 조합(5복합 바이오마커)으로 충분한 performance가 나오는 경우, 추가적으로 1개 이상의 바이오마커를 더 복합하더라도 performance의 별 차이가 없을 경우, 5개 정도의 바이오마커 조합으로 폐암 진단 바이오마커 상품을 제조할 수 있을 것이다.
하기 표 10은 IGF-1+Cyfra에 바이오마커를 1개씩 추가하면서 각 평가 지표의 변동(증가)를 보여 주는 일 실시예이다. 하기 표 10에서 알 수 있듯이, 각 평가 지표는 바이오마커 수가 증가됨에 따라 saturation 됨을 알 수 있다. 만약 accuracy를 기준으로 하여 93%로 충분할 경우(accuracy 93%가 cut off인 경우), "IGF-1+CYFRA21.1+A1AT+RANTES+CEA+CA19-9" 복합 바이오마커로 된 모델로도 충분할 수 있을 것이며, 이 모델에 TTR을 추가하는 모델은 불필요할 수도 있을 것이다.
M_01 | M_02 | M_03 | M_04 | M_05 | M_06 | Accuracy | Sensitivity | |
IGF-1 | CYFRA21.1 | 0.8629 | 0.8213 | |||||
IGF-1 | CYFRA21.1 | A1AT | 0.8895 | 0.8708 | ||||
IGF-1 | CYFRA21.1 | A1AT | RANTES | 0.9238 | 0.9226 | |||
IGF-1 | CYFRA21.1 | A1AT | RANTES | CEA | 0.9266 | 0.919 | ||
IGF-1 | CYFRA21.1 | A1AT | RANTES | CEA | CA19-9 | 0.9300 | 0.9207 | |
IGF-1 | CYFRA21.1 | A1AT | RANTES | CEA | CA19-9 | TTR | 0.9315 | 0.9236 |
상기 표 2에서의 실험된 바이오마커들의 셀값은 바이오마커 후보의 실험값 나열이며, 로그(log) 변환 을 거친 값이다. 이와 같이 실험값은 측정값이므로 오차가 발생가능하며, 이상치(outlier)가 존재하게 되어 로그 변환의 여부를 떠나 그대로 사용했을 경우 이러한 이상치들이 통계 모델의 평가 지표를 떨어뜨리는 주된 요인이 될 수 있다. 따라서, 이상치들을 효과적으로 제거, 영향 최소화 또는 보정하는 방법이 필요하게 되는데, 이때 취할 수 있는 효과적인 방법이 Decision Tree(분류나무)를 이용한 기법이다. 분류나무 모형은 주어진 데이터에 순위를 매기고, 데이터를 반복적으로 분할한다. 분할된 각 파티션은 하나의 반응변수 값을 전부 또는 대부분 갖도록 하는 것을 목표로 한다. 이러한tree를 이용한 앙상블 기법에는 Bagging , Boosting, Random Forest 등 다양한 분류기법이 있다. 앙상블 기법은 Decision Tree(분류나무) 노드를 이용하여 여러 개의 tree를 만들고, 이를 결합하여 더욱 안정되고 강력한 classifier를 만든다. Boosting은 weak classifier(일반적으로 랜덤한 선택보다 약간 더 좋은 성능)를 여러 개 만들어서 합쳐줌으로써 정확도가 높은 분류모형을 만드는 기법이다. Boosting은 변수의 interaction term도 고려할 수 있으며, 변수의 중요도도 관측된다. Random forest는 하나의 가장 좋은 분류나무모형을 구축하는 대신에 random하게 많은 분류나무모형을 구축하여 이들을 합하는 방법이다. Random forest의 장점은 분류 정확도가 우수하고, 이상치에 둔감하며, 계산이 빠르고 단순하다.
여기서는 앙상블 기법의 장점들을 이용하여, 암/정상 예측 모델 구축 시 이상치의 영향을 최소화 하도록 앙상블 기법(Boosting과 Random Forest)의 partial dependence plot 을 이용하여 자료를 변환하는 방법을 설명한다.
각 바이오마커별 발현량 등과 같은 X(변수)의 실제 측정 등에서는 여러가지 이유로 이상치들이 존재하게 되며, 이러한 이상치들을 그대로 사용하는 경우, 샘플에 포함된 이상치들 때문에 예측 모델 생성에서도 모델의 왜곡이 심해지며, 예측 모델을 적용할 때도 환자 등의 측정값에 이상치가 있는 경우, 암/정상 판정에 상당한 왜곡이 발생할 가능성이 커진다. 이는 특히, 복합 바이오마커 조합를 사용하는 경우, 조합에 포함된 특정한 바이오마커에 이상치가 있는 경우, 그 이상치가 전체 판정 모델값에 큰 영향을 끼칠 수 있게 된다. 이러한 이상치의 직접적인 반영에 따른 영향을 줄일 필요가 있게 된다. decision tree는 본질적으로 분류(classification)에 기초를 두고 있으므로, 이상치가 있더라도, 그 이상치가 직접적으로 반영되지 않고, 그 이상치의 상대적 순서, 랭킹 또는 분류 기준에의 해당성만이 반영되므로, 이상치의 영향력이 크게 줄어들게 된다.
이상치를 제거할 수 있는 논리에 대하여 좀더 상세히 설명한다. Partial dependence plot은 반응변수(암/정상)에 관한 특정 변수값의 영향 (marginal effect)을 보기 위한 것이다. 일반적으로 Partial dependence plot 함수 관계는 다음과 같이 구한다. 2개의 바이오 마커 조합 X=( Xs, Xc)을 가지고 먼저 Random forest 를 적용한다. 예를 들어 해당 random forest에서 50개의 decision tree가 생성되었다고 하자. 50개의 decision tree결과를 종합하면, 각 환자의 바이오 마커값 X=(Xs, Xc )에 대하여 아래의 함수 f (Xs, Xc)값을 구할 수 있다.
f(Xs, Xc)=f(X)=log(p(X)/(1-p(X)))
이 때 p(X)는 마커 조합 X를 갖는 해당 환자가 50개의 decision tree에서 암으로 뽑힌 비율, 즉 Avg.Score에 해당한다. 이와 같은 방법으로 모든 환자에 대해서 함수값 f(Xs, Xc)를 계산할 수 있다. 만약 첫번째 바이오 마커(예를 들어 RANTES, 현재 사용하는 예시에서는 XS이라고 하자)의 partial dependence 값을 구하고 싶다면, 같은 Xs 값을 갖는 환자들끼리 모아서 그들의 f(Xs, Xc)값 평균 (g(XS)이라고 하자)을 구한다.
예를 들면 마커 RANTES값 Xs =90인 환자들의 f(90, Xc)를 모아서 평균 (g(90))을 구하고. ,
RANTES값 Xs =65를 갖는 환자들의 f(65, Xc)값들을 모아서 평균 (g(65))을 구한다.
이런식으로 같은 Xs 값을 갖는 f값들의 평균(g(Xs))을 구하다 보면,
(Xs =90, g(90)), (Xs =65, g(65))와 같은 pair 값을 구할 수 있고,
이 Xs 을 x-축으로 g(Xs)을 y축으로 사용하여 그림을 그리면,
f값에 대한 Xs 의 marginal effect를 구할 수 있고, 이 함수가 partial dependence plot이 된다.
이때 original data로부터 f(Xs, Xc)를 추정할 때 사용된 decision tree는 데이터의 실제값보다는 순서를 사용하는 알고리즘이기 때문에, outlier들에 대해서 보다 둔감할 수 있다.
Partial dependence plot 또는 partial dependence 함수 관계는 하나의 변수에 대한 나머지 변수들의 영향을 제거한다. 예를 들어서, input 변수가 Xs, Xc 두 변수로 이루어진 결합 분포가 있을 때, Xs변수에 대한 영향을 알고 싶으면 결합분포를 Xc변수에 대해 평균을 취해주면 된다. 각 X마다 partial dependence 함수 관계를 생성할 수 있으며, 상기 partial dependence 함수 관계는 partial dependence plot에 대응되게 된다. 이러한 partial dependence 함수 관계나 partial dependence plot을 이용하여, X를 변환할 수 있게 된다. 즉, 2 이상의 샘플에 대하여 각 샘플별로 바이오마커별 오리지널 변수값을 입수(S51)하고, 바이오마커별 오리지널 입력 변수값으로 기설정된 처리를 수행하여 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 구성(S52)하여, 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 이용하여 바이오마커별 오리지널 변수값에 대한 바이오마커별 변환 변수값을 생성(S53)하고, 변환 변수값을 기설정된 암/정상 예측 통계 모델의 생성 또는 암/정상 예측 통계 모델의 실행에 사용(S54)할 수 있다.
이어, Partial dependence plot 또는 partial dependence 함수 관계를 이용한 본 발명 사상을 더욱 더 상세하게 설명한다. A1AT, CYFRA21.1, RANTES 3개로 구성되는 복합도 3의 복합 바이오마커를 이용한 통계 모델을 예시적으로 설명한다. 우선적으로 기존의 데이터에서 암 50개(암 진단 50 샘플)와 정상 50개(정상 진단 50 샘플)로 100개의 데이터를 뽑고, 정상 샘플에 대해서는 y=0, 암 샘플에 대해서는 y=1을 대응시킨다. 이 경우, 하기 표 11와 같은 데이터가 준비될 수 있다.
샘플 index | A1AT | CYFRA21.1 | RANTES | y |
221 | 3.45308 | -2 | 4.708709 | 0 |
223 | 3.341135 | -2 | 4.958518 | 0 |
222 | 3.568896 | -2 | 4.577357 | 0 |
246 | 3.068592 | -2 | 4.900771 | 0 |
207 | 4.538396 | -2 | 5.014241 | 0 |
182 | 3.674541 | -1.94122 | 4.864592 | 0 |
146 | 3.350815 | -2 | 4.760304 | 0 |
197 | 3.003192 | -2 | 4.741928 | 0 |
167 | 3.36072 | -0.5627 | 4.863431 | 0 |
... | ... | ... | ... | ... |
120 | 3.681963 | 0.072985 | 4.54931 | 1 |
37 | 3.779961 | -2 | 4.592287 | 1 |
6 | 3.408483 | -0.11415 | 4.698918 | 1 |
106 | 5.341259 | 0.036621 | 4.418414 | 1 |
121 | 4.328482 | 0.550228 | 5.00923 | 1 |
8 | 3.513981 | 0.134559 | 4.732865 | 1 |
43 | 4.122104 | -2 | 4.179332 | 1 |
118 | 5.220087 | 0.471732 | 3.972027 | 1 |
112 | 5.117792 | 0.663135 | 4.758335 | 1 |
... | ... | ... | ... | ... |
하기 수식1은 3차원의 설명변수 바이오마커 xi=(A1AT, CYFRA21.1, RANTES )와 특정 질병 그룹(폐암)과 정상 그룹으로 구성된 범주형 반응변수 yi를 가진 100 개의 쌍으로 이루어진 표본을 말한다.
[수식1]
이어, A1AT,l CYFRA21.1 RANTES 이 세 개의 바이오마커로 구성된 sample을 가지고 tree를 이용한 앙상블 기법으로 통계 모델을 만든다.
decision tree 방법을 수식으로 표현하면 하기 수식 2와 같다.
[수식 2]
여기서 Rj은 teminal node에서의 서로 배반인 설명변수 영역들을 나타낸다. 그리고 θ = {Rj,γj}은 추정해야할 모수이다.
이어, 각각의 partial dependence plot또는 partial dependence 함수 관계가 어떻게 구해지는지도 각 바이오마커에서 어떻게 구해지는지를 설명한다. 폐암 진단 모델 구축 시 이상치의 영향을 최소화 하도록 앙상블 기법(Boosting과 Random Forest)의 partial dependence plot 또는 partial dependence 함수 관계를 이용하여 자료를 변환한다. Partial dependence plot 또는 partial dependence 함수 관계는 하나의 변수에 대한 나머지 변수들의 영향을 제거한 것으로 오리지널 input 변수가 XA1AT, XCyfra21 .1, XRANTES 3 변수로 이루어진 결합 분포를 생각해 보자. XRANTES 변수에 대한 영향을 알고 싶으면 결합분포를 XA1AT, XCyfra21 . 1변수에 대해 평균을 취해주면 된다. 이것이 partial dependence plot 또는 partial dependence 함수 관계의 기본 아이디어이다. 수식으로 partial dependence 함수 관계를 표현해 보면 하기 수식 3과 같다.
[수식 3]
도 5 내지 도10을 참조하여 설명한다. 도 5는 RANTES의 partial dependency plot 이다. Partial dependency plot을 통해 나온 함수f값은 세로축에 표시되며 가로축은 설명 변수 값이 표시되어 있다. 도 6은 암환자와 정상인 사람들의 boxplot이다. Boxplot을 보면 정상인 그룹보다 암환자 그룹의 RANTES 값이 전반적으로 낮음을 알 수 있다. 즉, RANTES 값이 작을수록 암환자 그룹일 가능성이 높아진다. 이러한 정보를 반영한 것이 partial dependency plot이다. partial dependency plot의 y축 값은 RANTES변수에 대한 영향을 나타내며 가로축 값이 작아질수록 y축 값은 커진다. Y값이 클수록 질병으로 분류될 가능성이 높다고 해석할 수 있다. 각 설명 변수 X 마다 partial dependence plot을 그릴 수 있으며 Cyfra21.1에 대한 Partial dependency plot와 boxplot는 도 7 과 도8이며, A1AT에 대한 Partial dependency plot와 boxplot는 도 9와 도10이다.
이어, partial dependence plot 또는 partial dependence 함수 관계를 이용하여 변환된 설명 변수를 logistic regression, ridge regression 등 regression에 어떻게 적용하는지에 대해 설명한다.
Partial dependence plot/함수관계의 이러한 특성을 반영하여 우리는 원래의 값 X대신에 partial dependency plot/함수관계를 통해 변환된 값 Y를 새로운 input 변수로 정의하고 이 새로운 변수가 다음 단계인 logistic모형에서 input 변수가 된다. 도 9에서 A1AT 값이 3.0인 샘플은 partial dependency plot/함수관계를 통해 변환된 값인 -1.5를 갖는 것이고, A1AT값이 3.5인 샘플은 partial dependency plot/함수관계를 통해 0.5로 변환된다.
회귀분석모형은 일반적으로 설명 변수가 반응변수에 미치는 영향을 분석하는 방법으로서 그 결과를 질병진단 예측에도 활용할 수 있다. 회귀분석모형은 Lasso regression, Ridge regression, Logistic regression등 여러 가지가 있다. 분류 방법 중 하나인 logistic모형은 반응 변수값이 이분변수일 때 사용되는 모형으로 확률추정이 가능하며 해석하기가 쉽다. 각 회귀계수는 변수의 영향(중요도)를 나타낸다고 할 수 있다. 회귀계수가 0보다 큰 경우는 X값이 커지면서 Y가 1이 될 확률(질병으로 예측될 가능성)이 커지며 회귀계수가 0보다 작은 경우는 X값이 증가하면서 Y가 1이 될 확률이 작아진다. Logistic모형에서 회귀계수를 추정할 때 수렴하지 않는 문제가 발생 할 수 있기 때문에 regularization method인 ridge 함수를 이용하여 확률값을 추정한다. Ridge 함수를 이용한 회귀계수는 하기 수식4와 같이 추정된다. Ridge 추정량은 회귀계수 추정량이 제한된 상황에서 오차를 제일 작게 하는 추정량을 구하는 것이다.
[수식 4]
이렇게 추정된 회귀계수를 이용하여 질병의 예측 확률값을 구할 수 있다.
이어, 상기 추정된 회귀계수를 직접 대응시킨 Logistic regression 모델은 하기 수식 5와 같다
[수식5]
실제 본 발명의 실제 실시예적 통계 모델에서 회귀 계수를 구한 값을 적용하면, 상기 수식 5는 하기 수식 6과 같이 되었다.
[수식 6]
질병으로 분류(Yi=1)될 확률을 예측하기 위해서 sample xi의 marker j 에 대한 회귀계수가 βj인 경우에 logistic 회귀모형은 하기 수식 7와 같다.
[수식 7]
상기 수식 7에 실제 실시예적 통계 모델에서 추정된 회귀계수를 대입하면, 하기 수식 8과 같다.
[수식 8]
상기와 같은 방법으로 Partial Dependency Plot/함수관계를 사용하여 각 샘플별로 상기 바이오마커별 오리지널 변수값을 변환할 수 있으며, 변환된 바이오마커별 변수값으로 기설정된 암/정상 예측 통계 모델의 생성 또는 암/정상 예측 통계 모델의 실행에 사용할 수 있게 된다. 이와 같이 모든 복합 바이오마커 조합을 사용하는 모든 통계 모델마다 변환된 바이오마커별 변수값을 사용하여 상기 수식 8과 같은 폐암으로 진단할 확률 함수를 구할 수 있게 된다.
한편, 복합 바이오마커를 사용하는 경우, 여러 개의 바이오마커를 사용하므로, 어느 바이오마커가 얼마만한 영향을 미치는지를 용이하게 알아 보기 어려울 수가 있다. 이때, 폐암 진단 모형의 결과값으로 질병 확률 예측값과 함께 사용된 복합 바이오마커에서 각 바이오마커의 영향을 눈으로 쉽게 볼 수 있고 다른 바이오마커들과 비교해 볼 수 있는 기법의 개발이 필요하게 된다. 이러한 이유로 탐색적 자료 분석 기법인coefficient plot (CP)을 개발하였다.
도 11은 CP의 일 실시예적 도면이다. x축에는 비교대상 바이오마커들을, y축에는 바이오마커의 질병에 미치는 영향 정도를 나타낸다. 도 11에서 Cyfra21.1 이 질병을 유발하는 중요한 변수라는 것은 한눈에 알 수 있다.
CP에 사용된 바이오마커별 바이오마커의 질병에 미치는 영향 정도는 다음과 같이 계산된다. g(x)는 partial dependence plot 을 이용하여 변환된 새로운 input변수를 사용한다. 복합도 K인 복수 개의 바이오마커에 대하여 로지스틱 모형으로부터 구한 판별 함수는 하기 수식 9와 같이 표현할 수가 있다. 새로운 input변수를 표준화시킨 다음 베타 계수를 곱해서 나온 값을 plot으로 그려보면 각 바이오마커의 영향 정도를 가늠할 수 있다.
[수식 9]
CP를 생성하는 방법은 X 축에 복합 바이오마커를 구성하는 개별 바이오마커를 나열(S61)하고, Y 축에 개별 바이오마커별 영향력 정보를 표시(S62)하는 방법을 포함한다.
이하, 예시를 통하여 본 발명 사상을 더욱 더 상세하게 설명한다. 하기 표 12에는 A1AT, CYFRA21.1, 및 RANTES로 구성되는 복합 바이오마커 조합이 있을 때, 각 샘플별 각 바이오마커별 발현량의 측정값 및 partial dependency plot을 통하여 변환된 각 바이오마커의 발현량의 측정값을 보여 주고 있다.
샘플 index | A1AT | CYFRA21.1 | RANTES | t(A1AT) | t(CYFRA21.1) | t(RANTES) |
163 | 3.57 | 0.21 | 4.87 | 1.07 | 2.88 | -0.63 |
174 | 2.88 | -1.94 | 4.33 | -0.95 | -1.50 | 2.48 |
205 | 2.97 | 0.37 | 4.98 | -0.95 | 2.88 | -0.88 |
203 | 3.33 | -2.00 | 4.95 | -0.73 | -1.50 | -0.88 |
152 | 3.38 | -0.91 | 4.93 | 0.13 | -1.33 | -0.88 |
130 | 3.36 | -2.00 | 4.71 | -0.47 | -1.50 | -0.17 |
229 | 3.21 | -2.00 | 4.88 | -0.90 | -1.50 | -0.63 |
156 | 3.07 | -1.26 | 4.78 | -0.95 | -1.34 | -0.62 |
168 | 3.20 | -1.83 | 5.02 | -0.90 | -1.27 | -0.86 |
228 | 3.31 | -2.00 | 5.03 | -0.73 | -1.50 | -0.86 |
... | ... | ... | ... | ... | ... | ... |
23 | 4.05 | 0.39 | 4.56 | 1.45 | 2.88 | 2.31 |
81 | 4.10 | 0.93 | 4.35 | 1.45 | 2.88 | 2.48 |
11 | 3.51 | 0.29 | 4.60 | 0.90 | 2.88 | 1.77 |
49 | 3.90 | -0.38 | 4.41 | 1.41 | 1.60 | 2.48 |
8 | 3.51 | 0.13 | 4.73 | 0.90 | 2.88 | -0.40 |
104 | 3.52 | 0.78 | 4.86 | 0.90 | 2.88 | -0.63 |
45 | 4.25 | -0.69 | 4.45 | 1.45 | -0.99 | 2.47 |
120 | 3.68 | 0.07 | 4.55 | 1.12 | 2.88 | 2.36 |
5 | 3.44 | -0.80 | 4.44 | 0.50 | -1.30 | 2.48 |
9 | 4.50 | -1.83 | 4.35 | 1.45 | -1.27 | 2.48 |
21 | 3.65 | -0.17 | 4.82 | 1.12 | 1.66 | -0.63 |
... | ... | ... | ... | ... | ... | ... |
74 | 4.34 | -0.27 | 4.70 | 1.45 | 1.66 | -0.01 |
하기 표 13은 각 샘플별 실제 Y값(암 환자 또는 정상인), 암 진단 모델을 통하여 예측된 확률값 prob(Y=1)값, 확률값을 통한 예측지(암 또는 정상) 및 각 샘플(대상자)별 각 바이오마커별로의 Coefficient plot 값을 생성한 결과를 보여 주고 있다.
샘플 index | true y | 예상확률 | 예상치 | coeff_A1AT | coeff_Cyfra21.1 | coeff_RANTES |
163 | 0 | 0.95 | 1 | 0.59 | 3.09 | -1.29 |
174 | 0 | 0.38 | 0 | -1.67 | -2.37 | 1.90 |
205 | 0 | 0.69 | 1 | -1.68 | 2.28 | -1.58 |
203 | 0 | 0.01 | 0 | -1.07 | -2.35 | -1.59 |
152 | 0 | 0.03 | 0 | -0.33 | -2.16 | -1.21 |
130 | 0 | 0.03 | 0 | -1.08 | -1.78 | -0.70 |
229 | 0 | 0.01 | 0 | -1.23 | -2.35 | -1.28 |
156 | 0 | 0.02 | 0 | -1.67 | -2.18 | -0.96 |
168 | 0 | 0.01 | 0 | -1.62 | -1.57 | -1.56 |
228 | 0 | 0.01 | 0 | -1.07 | -2.35 | -1.57 |
... | ... | ... | ... | ... | ... | ... |
23 | 1 | 1.00 | 1 | 1.31 | 3.09 | 1.75 |
81 | 1 | 1.00 | 1 | 1.31 | 2.28 | 2.59 |
11 | 1 | 1.00 | 1 | 0.44 | 3.09 | 1.71 |
49 | 1 | 1.00 | 1 | 1.26 | 1.50 | 1.90 |
8 | 1 | 0.96 | 1 | 0.62 | 2.28 | -0.99 |
104 | 1 | 0.94 | 1 | 0.44 | 3.09 | -1.29 |
45 | 1 | 0.92 | 1 | 1.31 | -1.73 | 1.90 |
120 | 1 | 1.00 | 1 | 0.90 | 2.28 | 2.44 |
5 | 1 | 0.75 | 1 | 0.07 | -2.11 | 2.59 |
9 | 1 | 0.89 | 1 | 1.31 | -2.08 | 1.90 |
21 | 1 | 0.82 | 1 | 0.90 | 1.15 | -1.28 |
... | ... | ... | ... | ... | ... | ... |
74 | 1 | 0.93 | 1 | 0.95 | 1.58 | -0.51 |
상기 표 13에서 알 수 있듯이 실제 암이 아닌데 암이 진단된 것은 2개이며, 암인데 암이 아닌 것으로 진단한 것은 없는 것과 같이 예측의 정확도가 아주 높은 것을 알 수 있다.
이어, 폐암 진단 능력이 높은 복합 바이오마커 조합을 선별하는 방법을 설명한다.
본 발명에서는 13개의 바이오마커에 대하여 2개씩 쌍으로 복합도 2인 복합 마커 조합 8178개를 생성하였다. 생성된 각 바이오마커 조합에 대응하는 암 진단 모델을 생성하고, 생성된 암 진단 모델을 대상으로 하여, 정상인 128명(남자 78명, 여자 50명)과 폐암 환자 121명(남자 78명, 여자 43명)을 대상으로 하여 테스트를 하였고, 그 테스트 결과에 해당하는 각 암 진단 모델별 평가 지표(정확도, 민감도 및 특이도)는 하기 표 14 내지 하기 표 24에 있다. 테스트 된 각각의 암 진단 모델은 암 진단 모델의 관점에서는 개별적인 실시예에 해당하나, 8178개의 실시예를 모두 제시하고 나열해야 하나, 나열의 경우 너무 많은 공간을 차지하는 점과, 특허는 발명 사상의 표현인 점을 고려하여 대표적인 실시예만을 표의 형태로 제시한다. 표의 형태로 제시되는 각 실시예에는 암 진단 모델 번호가 있으며, 그 번호에 해당하는 암 진단 모델은 그 암 진단 모델에 참여하는 바이오마커 조합이 대응되어 있으며, 그 암 진단 모델에 대한 정상인 128명(남자 78명, 여자 50명)과 폐암 환자 121명(남자 78명, 여자 43명)을 대상으로 하여 테스트한 결과인 평가 지표가 병기되어 있다.
우선적으로 본 발명에서는 13개의 바이오마커에 대하여 2개씩 쌍으로 복합도 2인 복합 마커 조합을 생성하였다. 생성된 바이오마커 조합에 대응하는 78개의 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다. 상기 각 암 진단 모델을 대상으로 하여, 정상인 128명(남자 78명, 여자 50명)과 폐암 환자 121명(남자 78명, 여자 43명)을 대상으로 하여 테스트를 하였고, 그 테스트 결과에 해당하는 각 암 진단 모델별 평가 지표(정확도, 민감도 및 특이도) 중 일부는 하기 표 14에 있다.
하기 표 14는 정확도 기준 상위 50%에 해당하는 복합도 2인 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있다.
암 진단 모델 | 바이오마커 | 바이오마커 | 정확도 | 민감도 | 특이도 |
20 | A1AT | PAI-1 | 0.8795 | 0.8505 | 0.9085 |
14 | A1AT | CYFRA21-1 | 0.8723 | 0.8541 | 0.8906 |
16 | A1AT | RANTES | 0.8702 | 0.8430 | 0.8974 |
31 | CYFRA21-1 | PAI-1 | 0.8684 | 0.8469 | 0.8900 |
22 | A1AT | CEA | 0.8663 | 0.8308 | 0.9018 |
27 | CYFRA21-1 | RANTES | 0.8648 | 0.8708 | 0.8588 |
26 | CYFRA21-1 | IGF-1 | 0.8629 | 0.8213 | 0.9044 |
32 | CYFRA21-1 | TTR | 0.8626 | 0.8469 | 0.8782 |
21 | A1AT | TTR | 0.8620 | 0.8197 | 0.9044 |
18 | A1AT | AFP | 0.8618 | 0.8472 | 0.8765 |
42 | IGF-1 | TTR | 0.8597 | 0.8626 | 0.8568 |
23 | A1AT | CA19-9 | 0.8567 | 0.8216 | 0.8918 |
25 | A1AT | ApoA1 | 0.8563 | 0.8289 | 0.8838 |
15 | A1AT | IGF-1 | 0.8540 | 0.8384 | 0.8697 |
28 | CYFRA21-1 | proApoA1 | 0.8539 | 0.8331 | 0.8747 |
24 | A1AT | ApoA1/proApoA1 | 0.8534 | 0.7948 | 0.9121 |
35 | CYFRA21-1 | ApoA1/proApoA1 | 0.8533 | 0.8439 | 0.8626 |
36 | CYFRA21-1 | ApoA1 | 0.8508 | 0.8413 | 0.8603 |
37 | IGF-1 | RANTES | 0.8495 | 0.8590 | 0.8400 |
30 | CYFRA21-1 | EGFR | 0.8494 | 0.8390 | 0.8597 |
17 | A1AT | proApoA1 | 0.8492 | 0.7866 | 0.9118 |
40 | IGF-1 | EGFR | 0.8487 | 0.8397 | 0.8576 |
19 | A1AT | EGFR | 0.8484 | 0.8141 | 0.8826 |
29 | CYFRA21-1 | AFP | 0.8472 | 0.8338 | 0.8606 |
34 | CYFRA21-1 | CA19-9 | 0.8418 | 0.8256 | 0.8579 |
33 | CYFRA21-1 | CEA | 0.8380 | 0.8289 | 0.8471 |
59 | proApoA1 | TTR | 0.8348 | 0.8125 | 0.8571 |
47 | RANTES | proApoA1 | 0.8328 | 0.8197 | 0.8459 |
38 | IGF-1 | proApoA1 | 0.8312 | 0.8151 | 0.8474 |
66 | AFP | TTR | 0.8289 | 0.8272 | 0.8306 |
41 | IGF-1 | PAI-1 | 0.8278 | 0.8315 | 0.8241 |
43 | IGF-1 | CEA | 0.8203 | 0.8479 | 0.7926 |
46 | IGF-1 | ApoA1 | 0.8178 | 0.8344 | 0.8012 |
51 | RANTES | TTR | 0.8168 | 0.8180 | 0.8156 |
39 | IGF-1 | AFP | 0.8097 | 0.8459 | 0.7735 |
57 | proApoA1 | EGFR | 0.8092 | 0.7698 | 0.8485 |
65 | AFP | PAI-1 | 0.8089 | 0.8128 | 0.8050 |
54 | RANTES | ApoA1/proApoA1 | 0.8083 | 0.7780 | 0.8385 |
52 | RANTES | CEA | 0.8065 | 0.8030 | 0.8100 |
상기 표 14에서 알 수 있듯이, 상기 13개의 바이오마커 중에서 IGF-1, RANTES, A1AT, Cyfra21-1이 다른 바이오마커들에 비하여 상당히 많음을 알 수 있다. 한편, 복합도 2인 모델에서는 평가 지표가 85%를 넘는 것들이 소수이며, 90%를 넘어가는 것은 없음을 알 수 있다. 이와 같이 복합도 2인 모델들은 평가 지표 85% 수준에서는 채택될 수 있는 암 진단 모델이 다수 있음을 볼 수 있다.
이어, 본 발명에서는 13개의 바이오마커에 대하여 3개씩 쌍으로 복합도 3인 복합 마커 조합을 생성하였다. 생성된 바이오마커 조합에 대응하는 286개의 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다.
하기 표 15는 정확도 기준 상위 30에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있다.
암 진단 모델 | 바이오마커 | 바이오마커 | 바이오마커 | 정확도 | 민감도 | 특이도 |
217 | IGF-1 | RANTES | TTR | 0.9034 | 0.9095 | 0.8974 |
232 | IGF-1 | AFP | TTR | 0.8959 | 0.9007 | 0.8912 |
103 | A1AT | IGF-1 | RANTES | 0.8957 | 0.8944 | 0.8971 |
117 | A1AT | RANTES | TTR | 0.8925 | 0.8833 | 0.9018 |
131 | A1AT | AFP | PAI-1 | 0.8924 | 0.8603 | 0.9244 |
145 | A1AT | PAI-1 | CA19-9 | 0.8899 | 0.8662 | 0.9135 |
261 | RANTES | proApoA1 | TTR | 0.8883 | 0.8793 | 0.8974 |
132 | A1AT | AFP | TTR | 0.8883 | 0.8636 | 0.9129 |
99 | A1AT | CYFRA21-1 | CEA | 0.8879 | 0.8682 | 0.9076 |
114 | A1AT | RANTES | AFP | 0.8875 | 0.8780 | 0.8971 |
173 | CYFRA21-1 | RANTES | CEA | 0.8872 | 0.8793 | 0.8950 |
107 | A1AT | IGF-1 | PAI-1 | 0.8862 | 0.8695 | 0.9029 |
116 | A1AT | RANTES | PAI-1 | 0.8857 | 0.8679 | 0.9035 |
108 | A1AT | IGF-1 | TTR | 0.8846 | 0.8810 | 0.8882 |
137 | A1AT | EGFR | PAI-1 | 0.8819 | 0.8597 | 0.9041 |
225 | IGF-1 | proApoA1 | TTR | 0.8811 | 0.8679 | 0.8944 |
150 | A1AT | TTR | ApoA1/proApoA1 | 0.8799 | 0.8485 | 0.9112 |
130 | A1AT | AFP | EGFR | 0.8796 | 0.8544 | 0.9047 |
119 | A1AT | RANTES | CA19-9 | 0.8794 | 0.8689 | 0.8900 |
113 | A1AT | RANTES | proApoA1 | 0.8793 | 0.8639 | 0.8947 |
146 | A1AT | PAI-1 | ApoA1/proApoA1 | 0.8789 | 0.8423 | 0.9156 |
147 | A1AT | PAI-1 | ApoA1 | 0.8782 | 0.8616 | 0.8947 |
120 | A1AT | RANTES | ApoA1/proApoA1 | 0.8777 | 0.8561 | 0.8994 |
215 | IGF-1 | RANTES | EGFR | 0.8772 | 0.8711 | 0.8832 |
110 | A1AT | IGF-1 | CA19-9 | 0.8762 | 0.8607 | 0.8918 |
143 | A1AT | PAI-1 | TTR | 0.8756 | 0.8518 | 0.8994 |
243 | IGF-1 | PAI-1 | TTR | 0.8747 | 0.8764 | 0.8729 |
164 | CYFRA21-1 | IGF-1 | CEA | 0.8738 | 0.8502 | 0.8974 |
115 | A1AT | RANTES | EGFR | 0.8733 | 0.8521 | 0.8944 |
134 | A1AT | AFP | CA19-9 | 0.8732 | 0.8574 | 0.8891 |
상기 표 15에서 알 수 있듯이, 정확도 기준 90%를 넘거나, 90%에 극히 근접하는(반올림하는 경우, 90%에 해당되는) 암 진단 모델에는 상기 13개의 바이오마커 중에서 IGF-1, RANTES가 포함되어 있음을 알 수 있다.
한편, 상위 평가 지표를 보이는 암 진단 모델에서, A1AT, Cyfra21-1, TTR이 다른 바이오마커들에 비하여 상당히 많음을 알 수 있다.
이어, 본 발명에서는 13개의 바이오마커에 대하여 4개씩 쌍으로 복합도 4인 복합 마커 조합을 생성하였다. 생성된 바이오마커 조합에 대응하는 286개의 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다.
하기 표 16은 정확도 기준 상위 30에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있으며, 하기 표 17은 정확도 기준 상위 31위에서 60위에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있다.
상기 표 16에서 알 수 있듯이, 복합도 4를 기준으로 한 암 진단 모델에서 상위 30위 내에는 상기 13개의 바이오마커 중에서 IGF-1, RANTES가 각각 19회 및 20회가 포함되어 있음을 최빈값을 형성하고 있음을 알 수 있다. 한편, A1AT 및 TTR도 다수 포함되어 있음을 알 수 있다.
한편, 상기 표 17에서 알 수 있듯이, 복합도 4를 기준으로 한 암 진단 모델에서 상위 31위 내지 60위에는 상기 13개의 바이오마커 중에서 A1AT, IGF-1, RANTES가 각각 19회, 15회 및 15회가 포함되어 있음을 최빈값을 형성하고 있음을 알 수 있다.
표 16 내지 표 17에서 알 수 있듯이, 복합도 4인 암 진단 모델에서는 IGF-1, RANTES가 암 진단 모델에서 가장 주요한 바이오마커일 가능성이 높으며, 아울러 A1AT, TTR도 암 진단 모델에서 주요한 바이오마커일 가능성이 높게 된다.
한편, 표 16 내지 표 17에서 알 수 있듯이, 대략 40위권 내에 들어오는 암 진단 모델은 정확도 반올림 기준으로 할 때 평가 지표값이 90%를 보이고 있음을 알 수 있다.
이어, 본 발명에서는 13개의 바이오마커에 대하여 5개씩 쌍으로 복합도 5인 복합 마커 조합을 생성하였다. 생성된 바이오마커 조합에 대응하는 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다. 하기 표 18 내지 표 21은 정확도 평가 기준 90%를 기준으로 암 진단 모델을 선정하였다.
하기 표 18는 정확도 기준 상위 30에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있으며, 하기 표 19는 정확도 기준 상위 31위에서 60위에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있으며, 하기 표 20은 정확도 기준 상위 61위 내지 90위에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있으며, 하기 표 21은 정확도 기준 상위 91위에서 117위에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있다.
표 18에서 알 수 있듯이, 복합도 5를 기준으로 한 암 진단 모델에서 상위 30위 내에는 상기 13개의 바이오마커 중에서 IGF-1, RANTES가 각각 23회 및 27회가 포함되어 있음을 최빈값을 형성하고 있음을 알 수 있다. 한편, A1AT 및 TTR도 각각 15회 및 22회가 다수 포함되어 있음을 알 수 있다.
한편 상기 표 19에서 알 수 있듯이, 복합도 5를 기준으로 한 암 진단 모델에서 상위 31위 내지 60위에는 상기 13개의 바이오마커 중에서 IGF-1, RANTES가 각각 17회, 27회 포함되어 있음을 최빈값을 형성하고 있음을 알 수 있고, A1AT 및 TTR도 각각 18회 및 16회 포함되어 있음을 알 수 있다.
한편, 상기 표 20에서 알 수 있듯이, 복합도 5를 기준으로 한 암 진단 모델에서 상위 61위 내지 90위에는 상기 13개의 바이오마커 중에서 IGF-1, RANTES가 각각 17회, 22회 포함되어 있음을 최빈값을 형성하고 있음을 알 수 있고, A1AT도 16회 포함되어 있음을 알 수 있다.
한편, 상기 표 21에서 알 수 있듯이, 복합도 5를 기준으로 한 암 진단 모델에서 상위 91위 내지 117위에는 상기 13개의 바이오마커 중에서 A1AT, IGF-1, RANTES, TTR 등이 다수 포함되어 있음을 알 수 있다.
표 18 내지 표 21에서 알 수 있듯이, 복합도 5를 기준으로 한 암 진단 모델에서 상위 1위 내지 117위에는 상기 13개의 바이오마커 중에서 IGF-1, RANTES가 각각 73회, 88회 포함되어 있음을 최빈값을 형성하고 있음을 알 수 있고, A1AT 65회, TTR이 64회 포함되어 있음을 알 수 있다.
이어, 본 발명에서는 13개의 바이오마커에 대하여 6개씩 쌍으로 복합도 6인 복합 마커 조합을 생성하였다. 생성된 바이오마커 조합에 대응하는 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다. 하기 표 22는 상위 30위 내에 포함되는 암 진단 모델의 평가 지표를 보여 주고 있다.
상기 표 22에서 알 수 있듯이, 복합도 6인 암 진단 모델에서는 RANTES는 모든 암 진단 모델에 포함되어 있으며, A1AT, IGF-1이 각각 24회 및 24회 포함되어 있고, Cyfra21-1과 TTR 등도 19회 포함되어 있음을 알 수 있다.
이어, 본 발명에서는 13개의 바이오마커에 대하여 7개씩 쌍으로 복합도 7인 복합 마커 조합을 생성하였다. 생성된 바이오마커 조합에 대응하는 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다. 하기 표 23은 상위 30위 내에 포함되는 암 진단 모델의 평가 지표를 보여 주고 있다.
상기 표 23에서 알 수 있듯이, 복합도 7인 암 진단 모델에서는 IGF-1과 RANTES는 각각 29회 및 30회로 거의 모든 암 진단 모델에 포함되어 있으며, Cyfra21-1과 TTR 등도 24회씩 포함되어 있음을 알 수 있다.
한편, 표 23에서 알 수 있듯이, 복합도가 6 내지 7에 근접할수록 평가 지표가 포화되는 정도가 높아짐을 알 수 있다.
본원 발명의 발명자들은 13개의 바이오마커에 대하여 8개씩 쌍으로 복합도 8인 복합 마커 조합, 9개씩 쌍으로 복합도 9인 복합 마커 조합, 10개씩 쌍으로 복합도 10인 복합 마커 조합, 11개씩 쌍으로 복합도 11인 복합 마커 조합, 12개씩 쌍으로 복합도 12인 복합 마커 조합 및 모든 13개의 바이오마커를 다 포함하는 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다.
복합도 8 내지 12에 대한 결과 중 복합도 12에 대한 결과의 일부를 하기 표 24에 게시한다. 복합도가 높아질 수록 평가 지표가 개선되는 경향이 있지만, 복합도가 높아질수록 평가 지표가 포화되거나, 좋아지는 경향은 반드시 성립되는 것은 아닐 수 있다. 표 24는 그러한 예시를 보여 준다.
암 진단 모델 | 13개 바이오마커 중 제외된 바이오마커 | 정확도 | 민감도 | 특이도 |
8178 | ApoA1 | 0.9047 | 0.9062 | 0.9032 |
8179 | ApoA1/proApoA1 | 0.9059 | 0.9023 | 0.9094 |
8180 | CA19-9 | 0.9026 | 0.9023 | 0.9029 |
8181 | CEA | 0.9 | 0.897 | 0.9029 |
8182 | TTR | 0.9037 | 0.8997 | 0.9076 |
8183 | PAI-1 | 0.8976 | 0.8941 | 0.9012 |
8184 | EGFR | 0.9074 | 0.9059 | 0.9088 |
8185 | AFP | 0.9026 | 0.8987 | 0.9065 |
8186 | proApoA1 | 0.9055 | 0.901 | 0.91 |
8187 | RANTES | 0.8895 | 0.8852 | 0.8938 |
8188 | IGF-1 | 0.8917 | 0.8928 | 0.8906 |
8189 | CYFRA21-1 | 0.8991 | 0.8967 | 0.9015 |
8190 | A1AT | 0.9002 | 0.8931 | 0.9074 |
상기 표 15 내지 표 24에서 알 수 있듯이, 상기 바이오마커 조합 후보군을 구성하는 바이오마커 조합 후보에 대하여, 바이오마커 조합 후보를 구성하는 개별 바이오마커 또는 구성된 바이오마커 조합 후보들과 폐암 진단 능력을 비교(S22)할 수 있다. 상기 비교는 평가 지표로 비교할 수 있을 것이다. 바이오마커 조합 후보 중 폐암 진단 능력이 기설정된 기준 이상인 바이오마커 조합을 선별(S23)하는데, 상기 선별에서 어느 평가 지표를 사용하느냐에 따라 기설정된 기준은 다를 수 있다. 폐암 진단에 있어서는 특이도가 중요한 평가 지표일 수 있으며, ROC 커브의 면적도 효율적인 평가 지표가 될 수 있다.
한편, 상기 제1 바이오마커 군에서 어느 하나 이상의 바이오마커를 선택(S31)하고, 제2 바이오마커 군에서 어느 하나 이상의 바이오마커를 선택(S32)한 다음, 2 이상의 바이오마커를 포함하여 구성되는 적어도 하나 이상의 바이오마커 조합을 포함하는 바이오마커 조합 후보군을 구성(S33)하고, 바이오마커 조합 후보를 구성하는 개별 바이오마커 또는 구성된 바이오마커 조합 후보들과 폐암 진단 능력을 비교(S34)할 수도 있을 것이다.
본 발명은 상기 13개 바이오마커에 특이적으로 결합할 수 있는 항체를 2 이상 복합적으로 포함하는 폐암 진단 및 스크리닝용 키트를 제공한다.
본 발명의 구체적인 실시예에서 폐암 환자의 혈청에서 발현량이 유의하게 변화하는 13개 단백질을 폐암 진단 및 스크리닝용 바이오마커로 선정하였고(표 5)참조), 상기 13개 바이오마커를 이용한 조합으로 이루어진 분류 모델에서 더 높은 정확도로 폐암 분류를 수행할 수 있음을 확인하였다. 이에, 본 발명의 키트는 폐암 환자와 정상인에서 발현에 차이가 있는 복합 바이오마커를 정량하는데 사용하기 위해, 상기 복합 바이오마커를 구성하는 각 바이오마커에 특이적으로 결합할 수 있는 항체를 포함할 수 있다.
상기 키트는 환자가 폐암인지 아닌지를 구별하여 의사 등 진료 행위자가 폐암을 진단 및 스크리닝 하는 것을 가능하게 할 뿐 아니라, 치료에 대한 환자의 반응을 모니터하여 그 결과에 따라 치료를 변경하는 것을 가능하게 한다. 또한, 폐암 모델(예: 마우스, 랫트 등의 동물 모델)의 생체 내 또는 생체 외에서 하나 이상의 바이오마커의 발현을 조절하는 화합물을 동정하는데 사용될 수 있다. 이에, 본 발명의 바이오마커는 표준 물질로 상기 키트에 추가로 포함될 수 있다.
본 발명의 키트에 사용될 수 있는 항체는 다클론 항체, 단클론 항체 및 에피토프와 결합할 수 있는 단편 등을 포함한다.
다클론 항체는 상기 13개 단백질 중 어느 하나를 동물에 주사하고 해당 동물로부터 채혈하여 항체를 포함하는 혈청을 수득하는 종래의 방법에 의해 생산할 수 있다. 이러한 다클론 항체는 당업계에 알려진 어떠한 방법에 의해서든 정제될 수 있고, 염소, 토끼, 양, 원숭이, 말, 돼지, 소, 개 등의 임의의 동물 종 숙주로부터 만들어 질 수 있다.
단클론 항체는 연속 세포주의 배양을 통한 항체 분자의 생성을 제공하는 어떠한 기술을 사용하여도 제조할 수 있다. 이러한 기술로는 이들로 한정되는 것은 아니지만 하이브리도마 기술, 사람 B-세포 하이브리도마 기술 및 EBV-하이브리도마 기술이 포함된다(Kohler G et al., Nature 256:495-497, 1975; Kozbor D et al., J Immunol Methods 81:31-42, 1985; Cote RJ et al., Proc Natl Acad Sci 80:2026-2030, 1983; 및 Cole SP et al., Mol Cell Biol 62:109-120, 1984).
또한 상기 13개 단백질 중 어느 하나에 대한 특정 결합 부위를 함유한 항체 단편이 제조될 수 있다. 예를 들면 이들로 한정되는 것은 아니지만 F(ab')2 단편은 항체 분자를 펩신으로 분해시켜 제조할 수 있으며, Fab 단편은 F(ab')2 단편의 디설파이드 브릿지를 환원시킴으로써 제조할 수 있다. 다른 방도로서, Fab 발현 라이브러리를 작제하여 원하는 특이성을 갖는 단클론 Fab 단편을 신속하고 간편하게 동정할 수 있다(Huse WD et al., Science 254: 1275-1281, 1989).
상기 항체는 세척이나 복합체의 분리 등 그 이후의 단계를 용이하게 하기 위해 고형 기질(solid substrate)에 결합될 수 있다. 고형 기질은 예를 들어 합성수지, 니트로셀룰로오스, 유리기판, 금속기판, 유리섬유, paramagnetic bead, 미세구체 및 미세비드 등이 있다. 또한, 상기 합성수지에는 폴리에스터, 폴리염화비닐, 폴리스티렌, 폴리프로필렌, PVDF 및 나일론 등이 있다. 본 발명의 구체적인 실시예에서, 단백질에 특이적으로 결합하는 항체를 고형 기질에 결합시키기 위해, 미세구체를 현탁한 후 마이크로튜브(microtube)에 옮겨 원심분리로 상층액을 제거한 후 재현탁하고, N-하이드록시-설포숙시니마이드(N-hydroxy-sulfosuccinimide) 및 1-에틸-3-(3-디메틸아미노프로필)-카르보디이마이드 하이드로클로라이드(1-ethyl-3-(3-dimethylaminopropyl)-carbodiimide hydrochloride)를 차례로 처리한 후 원심분리로 상층액을 제거한 후 세척하여 보관하였다. 또한, 환자로부터 수득된 시료를 고형 기질에 결합된 본 발명의 13개 단백질 중 어느 하나의 단백질에 특이적으로 결합할 수 있는 항체와 접촉시키는 경우, 시료는 항체와 접촉 전에 알맞은 정도로 희석될 수 있다.
본 발명의 키트는 추가로 상기 바이오마커에 특이적으로 결합하는 검출용 항체를 포함할 수 있다. 상기 검출용 항체는 발색효소, 형광물질, 방사성 동위원소 또는 콜로이드 등의 검출체로 표지한 접합체(conjugate)일 수 있고, 바람직하게는 상기 바이오마커에 특이적으로 결합할 수 있는 1차 항체일 것이다. 예를 들어, 상기 발색효소는 퍼록시다제(peroxidase), 알칼라인 포스파타제(alkaline phosphatase) 또는 산성 포스파타제(acid phosphatase)(예:양고추냉이 퍼록시다제(horseradish peroxidase))일 수 있고; 형광물질인 경우, 플루오레신카복실산(FCA), 플루오레신 이소티오시아네이트(FITC), 플루오레신 티오우레아(FTH), 7-아세톡시쿠마린-3-일, 플루오레신-5-일, 플루오레신-6-일, 2',7'-디클로로플루오레신-5-일, 2',7'-디클로로플루오레신-6-일, 디하이드로테트라메틸로사민-4-일, 테트라메틸로다민-5-일, 테트라메틸로다민-6-일, 4,4-디플루오로-5,7-디메틸-4-보라-3a,4a-디아자-s-인다센-3-에틸 또는 4,4-디플루오로-5,7-디페닐-4-보라-3a,4a-디아자-s-인다센-3-에틸, Cy3, Cy5,폴리 L-라이신-플루오레세인 이소티오시아네이트(poly L-lysine-fluorescein isothiocyanate, FITC), 로다민-B-이소티오시아네이트(rhodamine-B-isothiocyanate, RITC), 로다민(rhodamine), PE(Phycoerythrin)등을 사용하는 것이 가능하다.
또한, 본 발명의 키트는 추가로 (1) 상기 바이오마커에 특이적으로 결합하는 검출용 항체 및 (2) 상기 검출용 항체에 결합할 특이적으로 결합할 수 있는 리간드를 포함할 수 있다. 상기 리간드에는 단백질 A 또는 검출용 항체에 특이적으로 결합하는 2차 항체 등이 있다. 또한 상기 리간드는 발색효소, 형광물질, 방사성 동위원소 또는 콜로이드 등의 검출체로 표지한 접합체(conjugate)일 수 있다. 상기 검출용 항체는 상기 리간드를 위해, 바이오틴화(biotinylation) 또는 다이곡시제닌(digoxigenin) 처리한 1차 항체를 이용하는 것이 바람직하나, 상기 검출용 항체의 처리방법은 이에 한정되지 않는다. 또한 상기 리간드로는 상기 검출용 항체에 결합하기 위해, 스트렙타비딘, 아비딘 등이 사용되는 것이 바람직하나, 이에 한정되지 않는다. 본 발명의 구체적인 실시예에서 상기 검출체로 형광물질을 부착한 스트렙타비딘(streptavidin)을 리간드로 사용하였으며, 상기 리간드를 위해 바이오틴화(biotinylation)시킨 검출용 항체를 이용하였다.
본 발명의 진단 및 스크리닝용 키트는 상기 항체 및 바이오마커 복합체에 검출용 항체를 처리한 후 검출용 항체의 양을 탐색함으로써 폐암을 진단 및 스크리닝할 수 있다. 또는 상기 항체 및 바이오마커 복합체에 검출용 항체 및 리간드를 순차적으로 처리한 후, 검출체용 항체의 양을 탐색함으로써 폐암을 진단 및 스크리닝할 수 있다. 본 발명의 바람직한 실시예에서, 검출용 항체를 세척된 항체-바이오마커 복합체와 정온배치한 후 세척하여 검출용 항체를 측정함으로써 상기 바이오마커의 양을 측정할 수 있다. 검출용 항체의 양 측정이나 존재 검출은 형광, 발광, 화학발광(chemiluminescence), 흡광도, 반사 또는 투과를 통해 이루어질 수 있다.
또한, 상기 검출용 항체 또는 리간드의 양을 탐색하는 방법으로는 초고속 스크리닝(high throughput screening, HTS) 시스템을 이용하는 것이 바람직하고, 여기에는 검출체로 형광물질이 부착되어 형광을 검출함으로써 수행되는 형광법 또는 검출체로 방사선 동위원소가 부착되어 방사선을 검출함으로써 수행되는 방사선법; 검출체의 표지 없이 표면의 플라즈몬 공명 변화를 실시간으로 측정하는 SPR(surface plasmon resonance) 방법 또는 SPR 시스템을 영상화하여 확인하는 SPRI(surface plasmon resonance imaging) 방법을 이용하는 것이 바람직하나 이에 한정되지 않는다.
예를 들어 상기 형광법은 형광 스캐너 프로그램을 이용하여 상기 검출용 항체를 형광물질로 라벨링한 후 스포팅 하여 신호를 확인하는 방법으로, 이 방법을 적용하여 결합 정도를 확인할 수 있다. 상기 형광물질은 Cy3, Cy5,폴리 L-라이신-플루오레세인 이소티오시아네이트(poly L-lysine-fluorescein isothiocyanate, FITC), 로다민-B-이소티오시아네이트(rhodamine-B-isothiocyanate, RITC), 로다민(rhodamine), PE(Phycoerythrin)으로 이루어진 군으로부터 선택된 어느 하나인 것 바람직하나 이에 한정되지 않는다. 상기 SPR 시스템은 형광법과는 달리 시료를 형광물질로 표지할 필요가 없이 항체의 결합 정도를 실시간으로 분석하는 것이 가능하나 동시다발적인 시료 분석이 불가능하다는 단점이 있다. SPRI의 경우에는 미세정렬 방법을 이용하여 동시다발적인 시료 분석이 가능하지만 탐지 강도가 낮은 단점이 있다.
또한, 본 발명의 진단 및 스크리닝용 키트는 효소와 발색 반응할 기질 및 결합되지 않은 단백질 등은 제거하고 결합된 바이오마커만을 보유할 수 있는 세척액 또는 용리액을 추가로 포함할 수 있다. 분석을 위해 사용되는 시료는 혈청, 뇨, 눈물 타액 등 정상적인 상태와 구별될 수 있는 질환 특이적 폴리펩타이드를 확인할 수 있는 생체 시료를 포함한다. 바람직하게는 생물학적 액체 시료, 예를 들어 혈액, 혈청, 혈장, 더욱 바람직하게는 혈청으로부터 측정될 수 있다. 시료는 바이오마커의 탐지감도를 증가시키도록 준비될 수 있는데 예를 들어 환자로부터 수득한 혈청 시료는 음이온 교환 크로마토그래피, 친화도 크로마토그래피, 크기별 배제 크로마토그래피(size exclusion chromatography), 액체 크로마토그래피, 연속추출(sequential extraction) 또는 젤 전기영동 등의 방법을 이용하여 전처리될 수 있으나, 이에 한정되지 않는다.
아울러, 본 발명은 상기 13개 단백질 중 어느 하나의 단백질에 특이적으로 결합할 수 있는 생물 분자가 고형 기질에 집적된 폐암 진단 및 스크리닝용 바이오칩을 제공한다.
본 발명의 구체적인 실시예에서 폐암 환자의 혈청에서 발현량이 유의하게 변화하는 13개 단백질을 선정하였고(표 5참조), 상기 13개 단백질을 적어도 2 이상 복합적으로 이용한 조합으로 이루어진 분류모델에서 더 높은 정확도로 폐암 분류를 수행할 수 있음을 확인하였다. 이에, 본 발명의 바이오칩은 폐암 환자와 정상인에서 발현에 차이가 있는 상기와 같은 13개 단백질 중 하나 이상의 단백질을 측정하는데 사용하기 위해, 상기 13개 단백질 중 어느 하나의 단백질에 특이적으로 결합할 수 있는 항체를 포함할 수 있고, 또는 두 종류 이상의 상기 특이적인 항체의 조합을 포함할 수 있다.
상기 생물 분자는 저분자 화합물, 리간드, 앱타머, 펩티드, 폴리펩티드, 특이적 결합 단백질, 고분자 물질 및 항체 등으로 이루어진 군으로부터 선택되며 상기 단백질에 특이적으로 결합할 수 있는 물질이면 무엇이든 사용가능하며, 항체 또는 앱타머를 사용하는 것이 바람직하나, 이에 한정되는 것은 아니다.
상기 항체는 폴리클로날(polyclonal) 항체 또는 모노클로날(monoclonal) 항체를 사용하는 것이 바람직하며, 모노클로날 항체를 사용하는 것이 더욱 바람직하다. 상기 단백질에 특이적으로 결합하는 항체는 당업자에게 알려진 공지의 방법으로 제작하여도 무방하며, 상업적으로 알려진 항체를 구입하여 사용할 수 있다. 상기 항체는 당업자에게 알려진 종래 방법에 따라 면역원인 단백질을 외부 숙주에 주사함으로써 제조될 수 있다. 외부 숙주는 마우스, 래트, 양, 토끼와 같은 포유동물을 포함한다. 면역원은 근내, 복강내 또는 피하 주사방법으로 주사되며, 일반적으로 항원성을 증가시키기 위한 보조제(adjuvant)와 함께 투여할 수 있다. 외부 숙주로부터 정기적으로 혈액을 채취하여 형상된 역가 및 항원에 대한 특이성을 보이는 혈청을 수거하여 항체를 분리할 수 있다.
또한, 본 발명의 바이오칩의 고형 기질은 플라스틱, 유리, 금속 및 실리콘으로 구성된 군으로부터 선택될 수 있으며, 바람직하게는 그 표면에 상기 항체를 부착시키기 위해 화학 처리되거나 링커 분자가 결합하여 있을 수 있으나 이에 한정되는 것은 아니다. 본 발명의 바이오칩은 시료에서 전체 단백질을 채취하여 바이오칩과 반응시켜 손쉽고 정확하게 폐암을 진단 및 스크리닝을 수행할 수 있다.
상기 바이오칩의 기판에 코팅된 활성기는 상기 물질을 결합하는 역할을 하며, 아민기(amine group), 알데하이드기(aldehyde group), 카르복실기(carboxyl group) 및 티올기(thiol group)로 이루어진 군으로부터 선택될 수 있으며, 당업자에게 단백질 분자를 기판에 결합할 수 있는 활성기로 알려진 모든 활성기가 사용 가능하며, 이것에 한정되는 것은 아니다.
도 14는 폐암 진단 시스템의 일 실시예적 구성에 관한 것이다.
상기 폐암 진단 시스템은 진단 키트를 직접 또는 상기 진단 키트에서 기인하거나 독출한 정보를 이용하여 폐암 진단을 수행한다. 상기 폐암 진단 시스템은 대상자의 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 측정된 상기 바이오마커 조합을 구성하는 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수하는 정보 입수 모듈, 상기 입수된 상기 발현량 정보 또는 발현량 비율 정보를 기설정된 폐암 진단 모델로 처리하는 폐암 진단 모듈 및 상기 폐암 진단 모듈로부터 적어도 하나 이상의 폐암 진단 정보를 생성하는 폐암 진단 정보 생성 모듈을 포함할 수 있다. 상기 폐암 진단 모듈은 상기 발현량 정보 또는 발현량 비율 정보에 대하여 기설정된 적어도 하나 이상의 변환 모듈;을 더 포함하며, 상기 변환 모듈은 상기 발현량 정보에 대한 발현량 변환 정보 또는 상기 발현량 비율 정보에 대한 발현량 비율 변환 정보를 우선 생성한다.
한편, 상기 폐암 진단 모델은 상기 생성된 발현량 변환 정보 또는 상기 발현량 비율 변환 정보를 입력값으로 입력 받으며, 상기 변환 모듈은 tree를 이용한 앙상블 기법의 partial dependence plot 또는 partial dependency 함수 관계를 이용하여 발현량 변환 정보 또는 발현량 비율 변환 정보를 생성한다. 이에 대해서는 전술한 바와 같다. 상기 폐암 진단 모델은 로지스틱 모형인 것이며, 상기 로지스틱 모형은 상기 발현량 변환 정보 또는 상기 발현량 비율 변환 정보를 입력 받아 폐암으로 분류되는 확률값을 추정한다.
폐암 진단 정보 생성 모듈(1300)의 CP 정보 생성부(1310)는 상기 폐암 진단 정보 생성 모듈은 바이오마커별 질병 진단 기여도에 대한 정보를 추가적으로 생성하며, 상기 바이오마커별 질병 진단 기여도는 상기 바이오마커 조합에 포함된 바이오마커에 대하여 로지스틱 모형으로 구한 기설정된 판별함수를 사용하여 폐암에 미치는 영향의 정도를 coefficient plot의 형태로 생성한다.
상기 정보 입수 모듈이 상기 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수하는 방법은, 상기 폐암 진단 시스템이 상기 진단 키트로부터 직접 입수하는 방법, 상기 폐암 진단 시스템과 유무선 네트워크를 통하여 연결된 상기 진단 키트의 상기 바이오마커별 발현량 정보를 독출할 수 있는 제3의 시스템으로부터 전송 받는 방식으로 입수하는 방법 및 상기 폐암 진단 시스템과 유무선 네트워크로 연결된 상기 바이오마커별 발현량 정보를 입수하는 자의 컴퓨터로부터 전송되는 방식으로 입수하는 방법 등이 사용될 수 있다. 상기 폐암 진단 시스템이 진단 키트의 바이오마커의 발현량 정보를 직접 독출할 수 있는 경우에는 직접 상기 진단 키트로부터 발현량 정보를 입수할 수 있게 된다. 하지만, 직접 독출할 수 없는 경우에는 그 발현량 정보를 독출하는 기계, 장치, 기구 등의 제3의 시스템으로부터 전송받는 방식으로도 입수할 수 있게 된다. 한편, 상기 제3의 시스템과 상기 폐암 진단 시스템이 유무선 네트워크로 연결되어 있지 않거나, 직접 정보를 주고 받지 못하는 경우에는 상기 발현량 정보를 독출한 자의 컴퓨터로부터 직접 또는 간접적으로 독출한 발현량 정보를 유무선 네트워크를 통하여 상기 폐암 진단 시스템으로 전송할 수 있게 된다.
상기 폐암 진단 시스템은 대상자의 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 측정된 바이오마커 조합을 구성하는 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수(S41)하고, 입수된 발현량 정보 또는 발현량 비율 정보를 기설정된 폐암 진단 모델을 포함하는 폐암 진단 모듈로 처리(S42)하여, 폐암 진단 모듈로부터 적어도 하나 이상의 폐암 진단 정보를 생성(S43)한다.
한편, 상기 폐암 진단 시스템은 다수의 폐암 진단 모델을 폐암 진단 모델부에 저장해 놓고, 다수의 다른 폐암 진단용 바이오마커 조합을 사용하는 자들을 위하여 폐암 진단 서비스를 수행할 수 있다. 예를 들면, A 병원은 a+b+c+d 복합 바이오마커와 관련된 폐암 진단 키트를 사용하여 폐암 진단을 수행하고, B 병원은 a+c+e+f 복합 바이오마커와 관련된 폐암 진단 키트를 사용하여 폐암 진단을 수행하는 경우, 각 진단 키트마다 관련된 바이오마커 조합이 다르므로, 다른 폐암 진단 모델을 사용해야 할 것이다. 이 경우, 상기 폐암 진단 시스템이 입수 받는 정보에는 샘플 ID, 바이오마커별 발현량 정보가 필수적으로 포함되어 있어야 한다. 따라서, 상기 폐암 진단 시스템의 폐암 진단 모델 선택부는 입수하는 바이오마커별 발현량 정보에서 발현량 정보가 대응되는 복수 개의 바이오마커를 통하여, 상기 진단 키트에 사용된 바이오마커 조합을 추출하고, 추출된 바이오마커 조합 정보를 통하여 어느 폐암 진단 모델을 선택할 것인지를 결정한다. 즉, A 병원과 관련해서는 a+b+c+d 복합 바이오마커와 관련된 폐암 진단 모델을 사용하여 폐암 진단을 수행하고, B 병원에 대해서는 a+c+e+f 복합 바이오마커와 관련된 폐암 진단 모델을 사용하여 폐암 진단을 수행한다.
상기에서는 폐암을 예로 들어 설명하였지만, 바이오마커별 발현량 정보를 partial dependency plot 또는 partial dependency 함수 관계를 통하여 변환하고, 변환된 발현량 정보로 로지스틱 회귀 모델을 적용하여 진단 모델을 생성하고, 암 진단 방법을 실시하고, 진단 모델을 사용하고, 진단 모델을 시스템적으로 구축하는 등과 같은 각종 방법은 폐암뿐만 아니라 바이오마커를 사용하는 다른 암 진단 모델의 생성, 다른 암 진단 방법의 실시, 다른 암 진단 모델의 사용, 다른 암 진단 모델의 시스템화 등에서도 활용될 수 있음은 당연할 것이다.
본원 발명 사상에서 폐암 진단을 위한 특별한 바이오마커 후보가 BCLC(Biomarker Candidate for Lung Cancer)1, BCLC2, ..., BCLCi가 있고, 각각의 발현량 정보가 있을 경우에 대하여, 이들에 대하여 BLC(Biomarker for Lung Cancer)를 복수 개 찾아내고, 상기 복수개의 BLC들의 조합을 구성하여, 복합도 2 이상인 다수의 폐암 진단 모델을 생성하고, 생성된 폐암 진단 모델에 대하여 각종 평가 지표로 검증하여, 타당성 높은 폐암 진단 모델을 구성할 바이오마커 조합을 선별하고, 선별된 복합 바이오마커를 활용하여, 암 진단을 실시하는 방법과 시스템, 진단에 미치는 바이오마커의 영향력 정도를 확인하는 방법 등을 제시했다. 이때, 특정한 암 X에 특이적인 바이오마커 후보 BCCX(Biomarker Candidate for Cancer X)가 복수 개가 있을 경우, 본원 발명 사상에서 제시한 모든 방법을 동일 또는 대등하게 적용할 수 있을 것임은 당업자에게 자명할 것이다. 따라서, 본 발명에서는 폐암을 예로 들어 폐암 진단용 복합 바이오마커를 통한 각종 방법론을 제시했지만, 이러한 각종 방법론은 폐암뿐만 아니라, 다른 암에 대해서도 동일 또는 대등하게 적용될 수 있음은 당업자에게 당연할 것이다. 따라서, 본원 발명에서 사용하는 특이적인 방법론은 폐암에 한정되지 않고, 다른 암의 진단에 대해서도 적용될 수 있을 것이다.
본 발명은 의료 산업, 의료 정보 처리 산업, 암 진단 및 예방과 관련된 산업에 활용될 수 있다.
1000 : 폐암 진단 시스템
1100 : 정보 입수 모듈
1200 : 폐암 진단 모듈
1210 : 변환 모듈
1211 : Partial Dependency Plot/함수 관계 생성부
1220 : 폐암 진단 모델 생성부
1221 : 폐암 진단 모델부
1300 : 폐암 진단 정보 생성 모듈
1310 : CP 정보 생성부
1320 : 폐암 진단 모델 선택부
2000 : 바이오마커 발현량 정보 제공자단
2100 : 진단 키트
2200 : 진단 키트의 바이오마커별 발현량 정보를 독출할 수 있는 제3의 시스템
2300 : 바이오마커별 발현량 정보를 입수하는 자의 컴퓨터
3000 : 유무선 네트워크
1100 : 정보 입수 모듈
1200 : 폐암 진단 모듈
1210 : 변환 모듈
1211 : Partial Dependency Plot/함수 관계 생성부
1220 : 폐암 진단 모델 생성부
1221 : 폐암 진단 모델부
1300 : 폐암 진단 정보 생성 모듈
1310 : CP 정보 생성부
1320 : 폐암 진단 모델 선택부
2000 : 바이오마커 발현량 정보 제공자단
2100 : 진단 키트
2200 : 진단 키트의 바이오마커별 발현량 정보를 독출할 수 있는 제3의 시스템
2300 : 바이오마커별 발현량 정보를 입수하는 자의 컴퓨터
3000 : 유무선 네트워크
Claims (27)
- 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법에 있어서,
(A) 암 진단 대상자의 신체에서 분리하여 채취한 혈액, 혈장, 혈청 또는 상기 암 진단 대상자의 신체에서 분리한 채취 물질로부터 복수 개의 개별 바이오마커별 발현량 정보 또는 적어도 한 쌍의 바이오마커별 발현량 비율 정보를 입수하는 단계;
(B) 상기 발현량 정보 또는 상기 발현량 비율 정보를 의사 결정 나무를 이용한 앙상블 기법의 partial dependency plot 내지는 partial dependency 함수 관계를 이용하여 변환하여 변환된 발현량 정보 또는 변환된 발현량 비율 정보를 생성하는 단계; 및
(C) 상기 변환된 발현량 정보 또는 상기 변환된 발현량 비율 정보를 기설정된 암 진단 모델에 입력하여 상기 암진단 대상자별 암 진단 정보를 생성하는 단계;를 포함하는 것이며,
상기 암 진단 정보는 복수 개의 바이오마커별로의 암 진단 기여도에 대한 정보를 포함하는 것이며,
상기 바이오마커별 암 진단 기여도는 coefficient plot을 사용하여 제시되는 것으로서,
상기 바이오마커별 암 진단 기여도는 상기 암 진단 대상자별로 상기 암 진단 모델에 포함된 복수 개의 개별 바이오마커별로 상기 암 진단 대상자의 암 진단 정보에 미치는 영향의 정도를 계량화한 것인 것이며,
상기 암 진단 모델은 상기 변환된 발현량 정보 또는 상기 변환된 발현량 비율 정보를 입력 변수값으로 입력받아 상기 암 진단 모델이 진단의 대상으로 하는 암일 통계학적 확률값을 계산하는 함수인 것이며,
상기 암 진단 모델은 암 진단 모델별로 입력받는 상기 변환된 발현량 정보 또는 상기 변환된 발현량 비율 정보가 다른 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 정보 생성 방법. - 제1항에 있어서,
상기 암 진단 모델은 로지스틱 회귀 모델인 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 정보 생성 방법. - 제2항에 있어서,
상기 로지스틱 회귀 모델은 리지 벌점 함수(Ridge Penalty)를 사용한 것인 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 정보 생성 방법. - 제1항에 있어서,
상기 앙상블 기법은 Boosting 및 Random Forest 중 어느 하나의 방법인 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 정보 생성 방법. - 삭제
- 삭제
- 제1항 내지 제4항 중 어느 한 항의 암 진단 정보 생성 방법은
상기 복합 바이오마커에 특이적으로 결합하는 항체를 포함하는 암 진단 키트에서 상기 바이오마커별 발현량 정보를 독출하는 제3의 전산 처리 시스템에서 실시되거나,
상기 제3의 전산 처리 시스템과 유무선 네트워크로 연결되며, 상기 제3의 전산 처리 시스템으로부터 상기 바이오마커별 발현량 정보를 전송받는 암 진단 시스템에서 실시되는 것인 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 정보 생성 방법. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 진단 키트를 직접 또는 상기 진단 키트에서 기인하거나 독출한 정보를 이용하여 암 진단 예측을 수행하는 암 진단 예측 시스템 장치의 구성에 있어서, 상기 암 진단 예측을 수행하는 암 진단 예측 시스템 장치는
대상자의 신체에서 분리하여 채취한 혈액, 혈장, 혈청 또는 상기 대상자의 신체에서 분리한 채취 물질로부터 측정된 바이오마커 조합을 구성하는 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수하는 정보 입수 모듈;
상기 발현량 정보 또는 발현량 비율 정보에 대하여 기설정된 적어도 하나 이상의 변환 모듈;
상기 입수된 상기 발현량 정보 또는 발현량 비율 정보를 기설정된 암 진단 예측 모델로 처리하는 암 진단 예측 모듈;및
상기 변환된 발현량 정보 또는 상기 변환된 발현량 비율 정보를 기설정된 암 진단 모델에 입력하여 상기 암진단 대상자별 암 진단 정보를 생성하는 암 진단 예측 정보 생성 모듈;을 포함하며,
상기 변환 모듈은 앙상블 기법의 partial dependence plot 또는 partial dependency 함수 관계를 이용하여 발현량 변환 정보 또는 발현량 비율 변환 정보를 생성하는 것인 것이며,
상기 암 진단 모델은 상기 변환된 발현량 정보 또는 상기 변환된 발현량 비율 정보를 입력 변수값으로 입력받아 상기 암 진단 모델이 진단의 대상으로 하는 암일 통계학적 확률값을 계산하는 함수인 것이며,
상기 암 진단 모델은 암 진단 모델별로 입력받는 상기 변환된 발현량 정보 또는 상기 변환된 발현량 비율 정보가 다른 것이며,
상기 암 진단 정보는 복수 개의 바이오마커별 암 진단 기여도에 대한 정보를 포함하는 것이며,
상기 바이오마커별 암 진단 기여도는 coefficient plot을 사용하여 제시되는 것으로서,
상기 바이오마커별 암 진단 기여도는 상기 암 진단 대상자별로 상기 암 진단 모델에 포함된 복수 개의 개별 바이오마커별로 상기 암 진단 대상자의 암 진단 정보에 미치는 영향의 정도를 계량화한 것인 것이며,
상기 암 진단 모델은 상기 변환된 발현량 정보 또는 상기 변환된 발현량 비율 정보를 입력 변수값으로 입력받아 상기 암 진단 모델이 진단의 대상으로 하는 암일 통계학적 확률값을 계산하는 함수인 것이며,
상기 암 진단 모델은 암 진단 모델별로 입력받는 상기 변환된 발현량 정보 또는 상기 변환된 발현량 비율 정보가 다른 것을 특징으로 하는 암 진단 예측을 수행하는 암 진단 예측 시스템 장치. - 제17항에 있어서,
상기 정보 입수 모듈이 상기 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수하는 방법은,
상기 암 진단 예측 시스템 장치가 상기 진단 키트로부터 직접 입수하는 방법,
상기 암 진단 예측 시스템 장치와 유무선 네트워크를 통하여 연결된 상기 진단 키트의 상기 바이오마커별 발현량 정보를 독출할 수 있는 제3의 전산 처리 시스템으로부터 전송 받는 방식으로 입수하는 방법 및
상기 암 진단 예측 시스템 장치와 유무선 네트워크로 연결된 상기 바이오마커별 발현량 정보를 입수하는 자의 컴퓨터로부터 전송되는 방식으로 입수하는 방법 중 어느 하나 이상의 방법이 실시되는 것인 것을 특징으로 하는 암 진단 예측을 수행하는 암 진단 예측 시스템 장치. - 삭제
- 제17항에 있어서
상기 암 진단 예측 모델은 로지스틱 모형인 것이며, 상기 로지스틱 모형은 상기 발현량 변환 정보 또는 상기 발현량 비율 변환 정보를 입력 받아 암으로 분류되는 확률값을 추정하는 기설정된 함수식인 것을 특징으로 하는 암 진단 예측을 수행하는 암 진단 예측 시스템 장치.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100139567A KR101401561B1 (ko) | 2010-12-30 | 2010-12-30 | 복합 바이오마커를 활용한 암 진단 정보 생성 방법, 및 암 진단 예측 시스템 장치 |
PCT/KR2011/010353 WO2012091506A2 (ko) | 2010-12-30 | 2011-12-30 | 폐암 진단용 복합 바이오마커 및 이를 이용한 폐암 진단 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100139567A KR101401561B1 (ko) | 2010-12-30 | 2010-12-30 | 복합 바이오마커를 활용한 암 진단 정보 생성 방법, 및 암 진단 예측 시스템 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120077568A KR20120077568A (ko) | 2012-07-10 |
KR101401561B1 true KR101401561B1 (ko) | 2014-06-11 |
Family
ID=46711028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100139567A KR101401561B1 (ko) | 2010-12-30 | 2010-12-30 | 복합 바이오마커를 활용한 암 진단 정보 생성 방법, 및 암 진단 예측 시스템 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101401561B1 (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110023760B (zh) * | 2017-06-02 | 2023-04-14 | 李宗均 | 一种利用结直肠癌患者和正常人外周血内免疫细胞的分布差异评估免疫力并提供结直肠癌发病情况信息的诊断工具 |
KR102061800B1 (ko) * | 2017-07-18 | 2020-02-11 | 사회복지법인 삼성생명공익재단 | 기계 학습을 이용한 난소암의 예후 예측 방법, 장치 및 프로그램 |
KR101951727B1 (ko) * | 2018-02-02 | 2019-02-26 | (주)바이오인프라생명과학 | 멀티 암 판별을 위한 컴퓨팅 방법 및 이를 이용한 컴퓨팅 장치 |
KR102265529B1 (ko) * | 2018-05-31 | 2021-06-17 | 한국과학기술원 | 복합 유전 정보 네트워크 분석에 기반한 질병 위험도 진단 방법 |
JP7431760B2 (ja) * | 2018-06-30 | 2024-02-15 | 20/20 ジェネシステムズ,インク | 癌分類子モデル、機械学習システム、および使用方法 |
KR102534968B1 (ko) | 2021-03-22 | 2023-05-26 | 이원다이애그노믹스(주) | 암 발생여부를 진단 또는 예측하는 방법 |
WO2024085722A1 (ko) * | 2022-10-20 | 2024-04-25 | 건국대학교 산학협력단 | 신장 질환의 조기 진단을 위한 바이오마커 조성물 및 이를 이용한 신장 질환의 조기 진단에 필요한 정보를 제공하는 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080102360A (ko) * | 2005-12-23 | 2008-11-25 | 퍼시픽 에지 바이오테크놀로지 엘티디. | 직장결장암용 예후 예측 |
-
2010
- 2010-12-30 KR KR1020100139567A patent/KR101401561B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080102360A (ko) * | 2005-12-23 | 2008-11-25 | 퍼시픽 에지 바이오테크놀로지 엘티디. | 직장결장암용 예후 예측 |
Non-Patent Citations (4)
Title |
---|
Bioinformatics. 2009, vol. 25, Issue 15, pp. 1905-1914. * |
Bioinformatics. 2009, vol. 25, Issue 15, pp. 1905-1914.* |
J. Biopharm. Stat. 2010.01, Vol. 20, No. 1, pp. 160-171. * |
Stat. Med. 207, Vol. 26, No. 15, pp. 2937-2957. * |
Also Published As
Publication number | Publication date |
---|---|
KR20120077568A (ko) | 2012-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6374070B2 (ja) | 被験体の肺がん診断のための複合バイオマーカー群、これを利用する肺がん診断用キット、複合バイオマーカー群の情報を利用する方法およびこれを実行するコンピューティングシステム | |
KR101401561B1 (ko) | 복합 바이오마커를 활용한 암 진단 정보 생성 방법, 및 암 진단 예측 시스템 장치 | |
US10184943B2 (en) | Multiple biomarker set for breast cancer diagnosis, method of detecting the same, and diagnosis kit for breast cancer using antibody against the same | |
US20050069963A1 (en) | Multifactorial assay for cancer detection | |
US20100204055A1 (en) | Autoantibody detection systems and methods | |
US20070042405A1 (en) | Enhanced diagnostic multimarker serological profiling | |
US20050277137A1 (en) | Diagnostic multimarker serological profiling | |
KR20120077567A (ko) | 폐암 진단용 복합 바이오마커, 폐암 진단용 복합 바이오마커 정보 이용 방법, 폐암 진단용 키트 | |
WO2007124439A2 (en) | Diagnosis of stroke using metalloproteinase or transaminase | |
CN103562725B (zh) | 川崎病的诊断标志物和治疗靶点 | |
US20080255766A1 (en) | Methods and kits for the diagnosis of sickle cell | |
KR101122647B1 (ko) | 유방암 모니터링,진단 및 스크리닝용 단백질 마커 및 이를이용한 유방암 모니터링,진단 및 스크리닝 방법 | |
KR20120077570A (ko) | 폐암 진단 예측을 위한 복합 바이오마커, 구성 방법, 복합 바이오마커를 사용하는 폐암 진단 예측 방법 및 폐암 진단 예측 시스템 | |
US20100197510A1 (en) | Methods for rapid disease screening | |
KR102018205B1 (ko) | 대장암 진단용 조성물 및 상기 조성물을 이용한 대장암 진단 방법 | |
KR101463588B1 (ko) | 폐암 진단용 복합 바이오마커를 사용하는 폐암 진단용 키트 | |
KR100980031B1 (ko) | 대장암 진단 및 스크리닝용 단백질 마커 및 대장암 진단을 위한 상기 마커의 측정방법 | |
KR20120134091A (ko) | 폐암 진단용 복합 바이오마커 키트 | |
KR100920731B1 (ko) | 대장암 진단 및 스크리닝용 단백질 마커 및 대장암 진단을위한 상기 마커의 측정방법 | |
KR101454398B1 (ko) | 폐암 진단용 복합 바이오마커 구성 방법 및 폐암 진단용 복합 바이오마커 | |
KR20130004203A (ko) | 폐암 진단용 복합 바이오마커 정보 이용 방법 | |
KR20130004204A (ko) | 폐암 진단용 복합 바이오마커 구성 방법 | |
KR102018209B1 (ko) | 위암 진단용 조성물 및 상기 조성물을 이용한 위암 진단 방법 | |
KR20120134092A (ko) | 폐암 진단용 복합 바이오마커 키트 | |
KR20140067104A (ko) | 교정제 및 교정 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170523 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180517 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20190521 Year of fee payment: 6 |