본 발명은 Vitronectin, sVCAM-1(Soluble Vascular cell adhesion molecule-1), sCD40L(Soluble CD40 ligand), EGF(Epidermal growth factor), tPAI-1(Total plasminogen activator inhibitor-1), ApoA-1(Apolipoprotein-A1), proApoA-1(Proapolipoprotein-A1), Kininogen, VDBP(Vitamin D-binding protein), ApoA1/proApoA1(ApoA-1과 Proapolipoprotein-A1의 비율), CRP/Kininogen(CRP와 Kininogen의 비율), Hemoglobin 및 MPO(myeloperoxidase)로 구성된 군으로부터 선택되는 단백질에 특이적으로 결합하는 항체를 포함하는 유방암 모니터링, 진단 및 스크리닝용 키트를 제공한다.
또한, 본 발명은 D-Dimer, Vitronectin, sVCAM-1(Soluble Vascular cell adhesion molecule-1), sCD40L(Soluble CD40 ligand), EGF(Epidermal growth factor), A1AT(Alpha-1-antitrypsin), tPAI-1(Total plasminogen activator inhibitor-1), ApoA-1(Apolipoprotein-A1), proApoA-1(Proapolipoprotein-A1), Kininogen, VDBP(Vitamin D-binding protein), ApoA-1/proApoA-1, CRP/Kininogen, Hemoglobin, Cathepsin B(CB), MPO(myeloperoxidase) 및 IL-1ra(Interleukin-1 receptor antagonist)로 구성된 군으로부터 선택되는 둘 이상의 단백질들의 조합의 각각의 단백질에 특이적으로 결합하는 항체들을 포함하는 유방암 모니터링, 진단 및 스크리닝용 키트를 제공한다.
본 발명자들은 정상적인 개체 및 유방암 질환 개체의 혈청 시료를 수득하여 정상인과 유방암 환자에서 AFP(Alpha-fetoprotein), tPSA(total Prostate Specific Antigen), D-Dimer, Vitronectin, sICAM-1(Soluble Intercellular cell adhesion molecule-1), sVCAM-1(Soluble Vascular cell adhesion molecule-1), sCD40L(Soluble CD40 ligand), EGF(Epidermal growth factor), A1AT(Alpha-1-antitrypsin), tPAI-1(Total plasminogen activator inhibitor-1), ApoA-1(Apolipoprotein-A1), proApoA-1(Proapolipoprotein-A1), CRP(c-Reactive protein), Kininogen, VDBP(Vitamin D-binding protein), Hemoglobin 및 Cathepsin B(CB)의 17가지 단백질들의 발현량을 측정하여 데이터를 구축하고 바이오인포매틱스(bioinformatics) 및 통계적 분석방법을 도입하여, 양자(정상 또는 유방암 환자)간 발현량의 변화를 나타내는 단백질 및 상기 양자를 구별할 수 있는 최적의 마커 단백질을 찾아내었다. 상기 바이오인포매틱스를 이용한 분석방법은 대한민국 등록 특허 제 10-0679173호에 기재되어 있다.
상기 방법으로 유방암 환자의 혈청 시료와 정상인 혈청 시료를 비교분석한 결과, sCD40L, EGF, CRP/Kininogen, proApoA-1 및 Hemoglobin은 정상인에 비해 유방암 환자에서 발현량이 유의성 있게 증가하고 Vitronectin, sVCAM-1, tPAI-1, ApoA-1, Kininogen, VDBP, ApoA-1/proApoA-1 및 Cathepsin B(CB)은 정상인에 비해 유방암 환자에서 발현량이 유의성 있게 감소하는 것을 확인하였다. 이들은 정상인의 혈청에 비해 유의성 있게 발현량의 차이가 있음을 확인하였는 바, 유방암의 모니터링, 진단 및 스키리닝용 마커로 사용될 수 있으며 상기 마커는 하나 또는 둘 이상을 동시에 진단에 사용할 수 있음을 알 수 있다.
본 발명자들은 상기 단백질들을 RBM 키트, Linco 키트 및 바이오인프라에서 제조한 키트를 이용하여 각각의 프로토콜을 이용하여 측정하였으며, 측정 결과의 통계분석은 R 패키지(R Development Core Team (2007). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.)를 사용하여 분석하였다. 상기 분석 결과, Vitronectin, sVCAM-1, sCD40L, EGF, tPAI-1, ApoA-1, proApoA-1, Kininogen, VDBP, ApoA1/proApoA1, CRP/Kininogen, Hemoglobin 및 Cathepsin B의 13개 단백질은 Mann-Whitney U-test 결과 유방암과 정상인 그룹 간에 유의성 있는 차이가 있었다. 그 중 sCD40L, EGF, proApoA-1, CRP/Kininogen 및 Hemoglobin은 정상인에 비해 유방암 환자의 혈 청에서 증가하는 경향을 보였고, Vitronectin, sVCAM-1, tPAI-1, ApoA-1, Kininogen, VDBP, ApoA-1/proApoA-1 및 Cathepsin B 단백질은 정상인에 비해 유방암 환자의 혈청에서 감소하는 경향을 보였다(표 2 참조). 따라서, 상기 13개의 단백질은 유방암 모니터링, 진단 및 스크리닝용 마커로 이용할 수 있음을 알 수 있다.
본 발명자들은 선택한 단백질들의 모니터링, 진단 및 스크리닝 능력을 평가하기 위해, 15개 마커[D-Dimer, Vitronectin, sVCAM-1, sCD40L, EGF, A1AT, tPAI-1, ApoA-1, proApoA-1, Kininogen, VDBP, ApoA-1/proApoA-1, CRP/Kininogen, Hemoglobin, Cathepsin B(CB)]로 조합할 수 있는 모든 종류(32767가지)에 대해 LDA(linear discriminant analysis), RF(Random Forest) 및 SVM(support vector machine) 방법으로 훈련 집단(training set)을 이용하여 분류 모델을 만든 후 평가 집단(test set)으로 평가하였다. 상기 평가는 유방암 진단에 대한 정확도를 확인하였으며, 상기 정확도는 민감도와 특이도의 평균을 의미하는 것이다. 상기 평가 결과, 상기 개별 단백질로 모델을 만들어 분류했을 때는 15가지 개별 단백질 중 유방암 분류에 70% 이상의 정확도를 보이는 것은 EGF 하나밖에 없었으나, 나머지 개별 단백질 중 A1AT를 제외하고는 50% 이상의 정확도를 나타내었다. 또한, 개별 단백질들의 조합으로 이루어진 분류 모델에서는 더 높은 정확도를 얻을 수 있었다. 예를 들어 EGF, CD40L, sVCAM-11 및 tPAI-1의 4개 마커로 이루어진 모델의 정확도는 89.2%로 단일 마커 조합에 비해 훨씬 높은 정확도의 분류 모델을 만들 수 있었다(표 4 참조). 또한, sCD40L, EGF, Kininogen, tPAI-1, proApoA-1, sVCAM-1 및 Vitronectin 마커 조합의 경우 정확도 91.3%를, EGF, Kininogen, tPAI-1, proApoA-1, sVCAM-1 및 VDBP 마커 조합의 경우 정확도 90.6%를, sCD40L, D-Dimer, EGF, Kininogen, tPAI-1, sVCAM-1 및 VDBP 마커 조합의 경우 정확도 91.1%를, ApoA-1, sCD40L, CRP/Kininogen, EGF, Kininogen, tPAI-1 및 Vitronectin 마커 조합의 경우 정확도 90.0%를, sCD40L, EGF, Kininogen, tPAI-1, proApoA-1, sVCAM-1 및 Vitronectin 마커 조합의 경우 정확도 91.8%를 나타내었고, ApoA-1, Apoa-1/proApoA-1, sCD40L, D-dimer, EGF, Kininogen, tPAI-1 및 Vitronectin 마커 조합의 경우 정확도 90.6%를 나타내었다(표 8 참조). 따라서, 유방암 진단을 위해서는 개별 마커를 이용하는 것보다 둘 이상의 마커의 조합을 이용하는 것이 더 높은 정확도를 얻을 수 있음을 알 수 있다. D-Dimer 및 A1AT(Alpha-1-antitrypsin)는 개별 마커로 이용하는 경우 유방암 환자와 정상인 그룹에서 발현의 유의적 차이가 없었지만 둘 이상의 조합으로 이용하는 경우에는 유의적 차이가 있음을 알 수 있다.
본 발명자들은 선택한 단백질들의 진단 능력과 분류 모델의 정확성을 검증하기 위해 정상인 21명과 유방암 환자 23명에 대한 별도의 데이터를 이용하여 블라인드 테스트를 실시하였고, 블라인드 테스트에서도 높은 정확도를 나타냄을 확인하였다(표 8 참조).
본 발명자들은 선택한 단백질들의 유방암의 모니터링, 진단 및 스크리닝 능력을 평가하기 위해, ApoA-1, ApoA-1/proApoA-1, EGF, Hemoglobin, sCD40L 및 VDBP에 MPO(Myeloperoxidase)와 IL-1ra(Interleukin-1 receptor antagonist)를 추가하여 혈장 시료(plasma sample)들을 독립적으로 테스트하였다. 우선, 상기 8개 마커 들 중 새로 추가한 MPO(Myeloperoxidase)와 IL-1ra(Interleukin-1 receptor antagonist)의 유방암 환자와 정상인 간 혈장 농도 차이의 유의성을 확인하기 위해 Mann-Whitney U-test를 실시하였다. 그 결과, MPO 및 IL-1ra는 유방암 환자와 정상인 간의 혈장 농도 차이에 유의성이 있었으며(p-value <0.05), 유방암 환자의 혈장에서 증가하는 경향을 보였다(표 9 참조). 또한, 상기 마커들 조합의 유방암 진단 능력을 평가하기 위해, 상기 8개 마커들로 조합할 수 있는 모든 종류(255가지)에 대해 LDA, RF 및 SVM 방법으로 분류 모델을 만든 후 평가 집단(test set)으로 평가하였다. 그 결과, MPO와 IL-1ra는 개별 단백질로 분류 모델을 만들어 분류했을 때는 70% 이하의 정확도를 나타냈지만 다른 단백질들과의 조합으로 이루어진 분류 모델에서는 85% 이상의 높은 정확도를 얻을 수 있었다(표 10 및 표 11 참조).
본 발명의 키트는 환자가 유방암인지 아닌지를 구별하여 의사 등 진료 행위자가 유방암을 진단 및 스크리닝하는 것을 가능하게 할 뿐 아니라, 치료에 대한 환자의 반응을 모니터하여 그 결과에 따라 치료를 변경하는 것을 가능하게 한다. 또한, 유방암 모델(예: 마우스, 랫트 등의 동물모델)의 생체 내 또는 생체 외에서 하나 이상의 마커의 발현을 조절하는 화합물을 동정하는데 사용될 수 있다. 이에, 본 발명의 마커는 표준 물질로 상기 키트에 추가로 포함될 수 있다.
본 발명의 키트에 사용될 수 있는 항체는 다클론 항체, 단클론 항체 및 에피토프와 결합할 수 있는 단편 등을 포함한다.
다클론 항체는 상기 마커 단백질 중 어느 하나를 동물에 주사하고 해당 동물 로부터 채혈하여 항체를 포함하는 혈청을 수득하는 종래의 방법에 의해 생산할 수 있다. 이러한 다클론 항체는 당업계에 알려진 어떠한 방법에 의해서든 정제될 수 있고, 염소, 토끼, 양, 원숭이, 말, 돼지, 소, 개 등의 임의의 동물 종 숙주로부터 만들어질 수 있다.
단클론 항체는 연속 세포주의 배양을 통한 항체 분자의 생성을 제공하는 어떠한 기술을 사용하여도 제조할 수 있다. 이러한 기술로는 이들로 한정되는 것은 아니지만 하이브리도마 기술, 사람 B-세포 하이브리도마 기술 및 EBV-하이브리도마 기술이 포함된다(Kohler G et al., Nature 256:495-497, 1975; Kozbor D et al., J Immunol Methods 81:31-42, 1985; Cote RJ et al., Proc Natl Acad Sci 80:2026-2030, 1983; 및 Cole SP et al., Mol Cell Biol 62:109-120, 1984).
또한, 상기 마커 단백질 중 어느 하나에 대한 특정 결합 부위를 함유한 항체 단편이 제조될 수 있다. 예를 들면 이들로 한정되는 것은 아니지만 F(ab')2 단편은 항체 분자를 펩신으로 분해시켜 제조할 수 있으며, Fab 단편은 F(ab')2 단편의 디설파이드 브릿지를 환원시킴으로써 제조할 수 있다. 다른 방도로서, Fab 발현 라이브러리를 작제하여 원하는 특이성을 갖는 단클론 Fab 단편을 신속하고 간편하게 동정할 수 있다(Huse WD et al., Science 254: 1275-1281, 1989).
상기 항체는 세척이나 복합체의 분리 등 그 이후의 단계를 용이하게 하기 위해 고형 기질(solid substrate)에 결합될 수 있다. 고형 기질은 예를 들어 합성수지, 니트로셀룰로오스, 유리기판, 금속기판, 유리섬유, 미세구체 및 미세비드 등이 있다. 또한, 상기 합성수지에는 폴리에스터, 폴리염화비닐, 폴리스티렌, 폴리프로 필렌, PVDF 및 나일론 등이 있다. 본 발명에서, 단백질에 특이적으로 결합하는 항체를 고형 기질에 결합시키기 위해, 미세구체를 현탁한 후 마이크로튜브(microtube)에 옮겨 원심분리로 상층액을 제거한 후 재현탁하고, N-하이드록시-설포숙시니마이드(N-hydroxy-sulfosuccinimide) 및 1-에틸-3-(3-디메틸아미노프로필)-카르보디이마이드 하이드로클로라이드(1-ethyl-3-(3-dimethylaminopropyl)-carbodiimide hydrochloride)를 차례로 처리한 후 원심분리로 상층액을 제거한 후 세척하여 보관하였다.
또한, 환자로부터 수득된 시료를 고형 기질에 결합된 본 발명의 마커 단백질 중 어느 하나의 단백질에 특이적으로 결합할 수 있는 항체와 접촉시키는 경우, 시료는 항체와 접촉 전에 알맞은 정도로 희석될 수 있다.
본 발명의 키트는 추가로 상기 마커에 특이적으로 결합하는 검출용 항체를 포함할 수 있다. 상기 검출용 항체는 발색효소, 형광물질, 방사성 동위원소 또는 콜로이드 등의 검출체로 표지한 접합체(conjugate)일 수 있고, 바람직하게는 상기 마커에 특이적으로 결합할 수 있는 1차 항체일 것이다. 예를 들어, 상기 발색효소는 퍼록시다제(peroxidase), 알칼라인 포스파타제(alkaline phosphatase) 또는 산성 포스파타제(acid phosphatase)(예: 양고추냉이 퍼록시다제(horseradish peroxidase))일 수 있고; 형광물질인 경우, 플루오레신카복실산(FCA), 플루오레신 이소티오시아네이트(FITC), 플루오레신 티오우레아(FTH), 7-아세톡시쿠마린-3-일, 플루오레신-5-일, 플루오레신-6-일, 2',7'-디클로로플루오레신-5-일, 2',7'-디클로로플루오레신-6-일, 디하이드로테트라메틸로사민-4-일, 테트라메틸로다민-5-일, 테 트라메틸로다민-6-일, 4,4-디플루오로-5,7-디메틸-4-보라-3a,4a-디아자-s-인다센-3-에틸 또는 4,4-디플루오로-5,7-디페닐-4-보라-3a,4a-디아자-s-인다센-3-에틸 등을 사용하는 것이 가능하다.
또한, 본 발명의 키트는 추가로 (1) 상기 마커에 특이적으로 결합하는 검출용 항체 및 (2) 상기 검출용 항체에 특이적으로 결합할 수 있는 리간드를 포함할 수 있다. 상기 리간드에는 단백질 A 또는 검출용 항체에 특이적으로 결합하는 2차 항체 등이 있다. 또한 상기 리간드는 발색효소, 형광물질, 방사성 동위원소 또는 콜로이드 등의 검출체로 표지한 접합체(conjugate)일 수 있다. 상기 검출용 항체는 상기 리간드를 위해, 바이오틴화(biotinylation) 또는 다이곡시제닌(digoxigenin) 처리한 1차 항체를 이용하는 것이 바람직하나, 상기 검출용 항체의 처리방법은 이에 한정되지 않는다. 또한 상기 리간드로는 상기 검출용 항체에 결합하기 위해, 스트렙타비딘 또는 아비딘 등이 사용되는 것이 바람직하나, 이에 한정되지 않는다. 본 발명의 구체적인 실시예에서 상기 검출체로 형광물질을 부착한 스트렙타비딘(streptavidin)을 리간드로 사용하였으며, 상기 리간드를 위해 바이오틴화(biotinylation)시킨 검출용 항체를 이용하였다.
본 발명의 키트는 상기 항체 및 마커 복합체에 검출용 항체를 처리한 후 검출용 항체의 양을 탐색함으로써 유방암을 모니터링, 진단 및 스크리닝할 수 있다. 또는 상기 항체 및 마커 복합체에 검출용 항체 및 리간드를 순차적으로 처리한 후, 검출용 항체의 양을 탐색함으로써 유방암을 진단 및 스크리닝할 수 있다. 본 발명에서, 검출용 항체를 세척된 항체-마커 복합체와 정온배치한 후 세척하여 검출용 항체를 측정함으로써 상기 마커의 양을 측정할 수 있다. 검출용 항체의 양 측정이나 존재 검출은 형광, 발광, 화학발광(chemiluminescence), 흡광도, 반사 또는 투과를 통해 이루어질 수 있다.
또한, 상기 검출용 항체 또는 리간드의 양을 탐색하는 방법으로는 초고속 스크리닝(high throughput screening, HTS) 시스템을 이용하는 것이 바람직하고, 여기에는 검출체로 형광물질이 부착되어 형광을 검출함으로써 수행되는 형광법 또는 검출체로 방사선 동위원소가 부착되어 방사선을 검출함으로써 수행되는 방사선법; 검출체의 표지 없이 표면의 플라즈몬 공명 변화를 실시간으로 측정하는 SPR(surface plasmon resonance) 방법 또는 SPR 시스템을 영상화하여 확인하는 SPRI(surface plasmon resonance imaging) 방법을 이용하는 것이 바람직하나 이에 한정되지 않는다.
예를 들어 상기 형광법은 형광 스캐너 프로그램을 이용하여 상기 검출용 항체를 형광물질로 라벨링한 후 스포팅하여 신호를 확인하는 방법으로, 이 방법을 적용하여 결합 정도를 확인할 수 있다. 상기 형광물질은 Cy3, Cy5, 폴리 L-라이신-플루오레세인 이소티오시아네이트(poly L-lysine-fluorescein isothiocyanate, FITC), 로다민-B-이소티오시아네이트(rhodamine-B-isothiocyanate, RITC), 로다민(rhodamine)으로 이루어진 군으로부터 선택된 어느 하나인 것 바람직하나 이에 한정되지 않는다. 상기 SPR 시스템은 형광법과는 달리 시료를 형광물질로 표지할 필요가 없이 항체의 결합 정도를 실시간으로 분석하는 것이 가능하나 동시다발적인 시료 분석이 불가능하다는 단점이 있다. SPRI의 경우에는 미세정렬 방법을 이용하 여 동시다발적인 시료 분석이 가능하지만 탐지 강도가 낮은 단점이 있다.
또한, 본 발명의 키트는 효소와 발색 반응할 기질 및 결합되지 않은 단백질 등은 제거하고 결합된 마커만을 보유할 수 있는 세척액 또는 용리액을 추가로 포함할 수 있다. 분석을 위해 사용되는 시료는 혈청, 뇨, 눈물 타액 등 정상적인 상태와 구별될 수 있는 질환 특이적 폴리펩타이드를 확인할 수 있는 생체 시료를 포함한다. 바람직하게는 생물학적 액체 시료, 예를 들어 혈액, 혈청, 혈장, 더욱 바람직하게는 혈청으로부터 측정될 수 있다. 시료는 마커의 탐지감도를 증가시키도록 준비될 수 있는데 예를 들어 환자로부터 수득한 혈청 시료는 음이온 교환 크로마토그래피, 친화도 크로마토그래피, 크기별 배제 크로마토그래피(size exclusion chromatography), 액체 크로마토그래피, 연속추출(sequential extraction) 또는 젤 전기영동 등의 방법을 이용하여 전처리될 수 있으나, 이에 한정되지 않는다.
또한, 본 발명은
1) 환자의 시료로부터 Vitronectin, sVCAM-1(Soluble Vascular cell adhesion molecule-1), sCD40L(Soluble CD40 ligand), EGF(Epidermal growth factor), tPAI-1(Total plasminogen activator inhibitor-1), ApoA-1(Apolipoprotein-A1), proApoA-1(Proapolipoprotein-A1), Kininogen, VDBP(Vitamin D-binding protein), ApoA1/proApoA1(ApoA-1과 Proapolipoprotein-A1의 비율), CRP/Kininogen(CRP와 Kininogen의 비율), Hemoglobin 및 MPO(myeloperoxidase)로 구성된 군으로부터 선택되는 단백질의 발현량을 측정하는 단계; 및
2) 단계 1)의 상기 단백질의 발현량이 정상인의 발현량 보다 높거나 혹은 낮은 개체를 선별하는 단계를 포함하는 유방암 모니터링, 진단 및 스크리을 위한 상기 단백질의 검출 방법을 제공한다.
또한, 본 발명은
1) 환자의 시료로부터 D-Dimer, Vitronectin, sVCAM-1(Soluble Vascular cell adhesion molecule-1), sCD40L(Soluble CD40 ligand), EGF(Epidermal growth factor), A1AT(Alpha-1-antitrypsin), tPAI-1(Total plasminogen activator inhibitor-1), ApoA-1(Apolipoprotein-A1), proApoA-1(Proapolipoprotein-A1), Kininogen, VDBP(Vitamin D-binding protein), ApoA-1/proApoA-1, CRP/Kininogen, Hemoglobin, Cathepsin B(CB), MPO(myeloperoxidase) 및 IL-1ra(Interleukin-1 receptor antagonist)로 구성된 군으로부터 선택되는 둘 이상의 단백질들의 발현량을 측정하는 단계; 및
2) 단계 1)의 상기 단백질 또는 단백질 비율의 발현량을 분석하여 정상인의 발현량 보다 높거나 혹은 낮은 개체를 선별하는 단계를 포함하는 유방암 모니터링, 진단 및 스크리을 위한 상기 단백질의 검출 방법을 제공한다.
상기 마커 단백질을 이용하면, 유방암 질환의 발병 여부를 확인하고자 하는 분석 대상 혈청 프로테옴을 입력받아 상기한 바와 같이 바이오인포매틱스 및 통계적 분석방법에 의해 분석하여 질환 특이적 마커 단백질의 패턴을 가진 표본과 비교하거나 혈청 내 본 발명의 마커 단백질의 양과 정상 표본의 단백질 양을 수치화한 후 비교하여, 비교 결과에 따라 분석 대상 혈청 프로테옴 패턴이 정상인지 유방암 질환 상태인지 확인하는 모니터링, 진단 및 스크리닝이 가능하다.
상기 방법에 있어서, 단계 1)의 발현량은 2차원 전기영동, 바이오칩 또는 상기 마커 단백질에 특이적으로 결합할 수 있는 항체를 이용하여 측정될 수 있으며, 상기 바이오칩은 바람직하게는 단백질칩 또는 핵산 어레이 등이 있다. 또한, 상기 마커 단백질에 특이적으로 결합할 수 있는 항체를 이용하여 측정하는 방법에는 웨스턴 블랏, ELISA(enzyme-linked immunosorbent assay), 비색법(colorimetric method), 전기화학법(electrochemical method), 형광법(fluorimetric method), 발광법(luminometry), 입자계수법(particle counting method), 육안측정법(visual assessment) 및 섬광계수법(scintillation counting method)으로 이루어진 그룹 중에서 선택되는 방법 등이 있을 수 있다.
상기 통계적 분석방법은 LDA(linear discriminant analysis), SVM(support vector machine), tree 또는 random forest에 의해 수행되는 것이 바람직하나 이에 한정되지 않는다.
SVM[Support Vector Machine, 서포트 벡터 머신(V. N. Vapnik et. al., Technical Report CSD-TR-96-17, Univ. of London, 1996.)]은 패턴 인식에 유용하게 사용되는 학습용 알고리즘으로서, 결정되는 표면이 서포트 벡터 및 그에 대응하는 가중치의 집합으로 이루어지는 변수에 의해 결정되며, 다수의 변수를 각각 따로 취급하지 않고 동시에 처리하는 방법을 제시한 것을 의미하고, 이는 벡터를 분류하는 유용한 도구로 사용될 수 있다. 서포트 벡터 머신에 의하면 입력 공간의 비선 형적인 높은 차수를 특징면(feature space)에서 선형적으로 투영하여 해석할 수 있도록 하며, 각 특징 사이의 최적의 경계(최적 분리면)을 제시한다. 서포트 벡터 머신은 크게 훈련 과정(training)과 평가 과정(testing)의 두 부분으로 이루어진다. 훈련 과정에서는 서포트 벡터가 생성되며 평가 과정에서는 특정 규칙에 의한 판단이 수행된다(대한민국 특허 제 10-2002-0067298호 참조).
LDA(linear discriminant analysis, 선형 판별 분석)은 변수들의 선형 결합을 통해 집단들(class) 사이의 특성을 가장 잘 분류하는 판별함수를 찾아내는 분석기법으로서 1936년 R. A. Fisher 에 의해 제안된 방법이다. 판별분석은 독립적인 변수들의 선형결합을 통해 집단간 차이를 가장 크게 하고 집단 내 차이를 가장 작게 하는 새로운 변수 Y를 정의하고 이 Y값의 크기를 통해 집단을 선택하는 고전적인 방법이다.
새로운 변수 Y는 다음과 같이 정의된다:
Y = c1X1 + c2X2 + …… +cnXn
(ci: 판별계수[discriminant coefficient], Xi: 독립변수).
tree(decision tree, 의사결정 나무)는 분류와 예측을 하는데 있어서 효과적으로 많이 쓰이는 데이터마이닝 기법으로 흐름도(flow chart)와 유사한 트리구조로 적용결과에 의해 규칙을 명확하게 나타내는 방법이다. 의사결정나무는 마디라고 불리는 구성요소 들로 이루어진 나무의 뿌리모양을 이루고 있으며 마디는 기능에 따라 분류할 수 있다. 중간 마디(intermediate node)에는 속성에 대한 검사를 표 시하고, 가지는 검사의 결과를 나타내며, 잎(leaf 또는 단말)마디는 집단이나 집단의 분포를 나타낸다. 나무의 최상위 마디는 뿌리(root)마디가 된다. 의사결정나무를 만드는 데는 다양한 알고리즘들이 있는데, 이중 많이 쓰이는 것으로는 CART(Classification and Regression Tree), CHAID(Chi-squared Automatic Interaction Detection) 및 C4.5가 있다.
random forest[(랜덤 포레스트) L. Breiman, Machine Learning, Vol. 45. Issue 1,October 2001)는 CART의 의사결정나무의 조합으로 이루어진 Bagging 알고리즘의 일종으로 Leo Breiman과 Adele Cutler에 의해 제안된 방법이다. 각 나무들의 마디들은 고차원을 갖는 자료를 하위 차원들의 작은 조각으로 나눠 빠르게 분류할 수 있도록 구성되어 있다. 이런 각 나무들은 조합(Ensemble)과 투표(Voting)에 의해 최종적인 분류를 완료하게 된다. 확률 분포가 같은 Random Vector에 의해 생성된 나무들은 각각 독립적으로 구성되고, 구성된 나무들의 개수를 무한으로 가져가면 오분류가 일반화되어 수렴하게 되는데, RF는 Randomness와 Out-of-bag(Random Selection without Replacement) 기법을 이용하여 Adaboost 만큼의 정확도를 낼 수 있게 하고 경계면과 잡음(Noise)에 강한 성능을 보이며, Bagging과 Boosting 보다 빠르게 수렴하도록 도와주는 효과를 낸다.
또한, 본 발명은 Vitronectin, sVCAM-1(Soluble Vascular cell adhesion molecule-1), sCD40L(Soluble CD40 ligand), EGF(Epidermal growth factor), tPAI-1(Total plasminogen activator inhibitor-1), ApoA-1(Apolipoprotein-A1), proApoA-1(Proapolipoprotein-A1), Kininogen, VDBP(Vitamin D-binding protein), ApoA1/proApoA1(ApoA-1과 Proapolipoprotein-A1의 비율), CRP/Kininogen(CRP와 Kininogen의 비율), Hemoglobin 및 MPO(myeloperoxidase)로 구성된 군으로부터 선택되는 단백질에 특이적으로 결합하는 생물분자들이 고형기질에 집적된 유방암 모니터링, 진단 및 스크리닝용 바이오칩을 제공한다.
아울러, 본 발명은 D-Dimer, Vitronectin, sVCAM-1(Soluble Vascular cell adhesion molecule-1), sCD40L(Soluble CD40 ligand), EGF(Epidermal growth factor), A1AT(Alpha-1-antitrypsin), tPAI-1(Total plasminogen activator inhibitor-1), ApoA-1(Apolipoprotein-A1), proApoA-1(Proapolipoprotein-A1), Kininogen, VDBP(Vitamin D-binding protein), ApoA-1/proApoA-1, CRP/Kininogen, Hemoglobin, Cathepsin B(CB), MPO(myeloperoxidase) 및 IL-1ra(Interleukin-1 receptor antagonist)로 구성된 군으로부터 선택되는 둘 이상의 단백질들의 조합의 각각의 단백질에 특이적으로 결합하는 생물분자들이 고형기질에 집적된 유방암 모니터링, 진단 및 스크리닝용 바이오칩을 제공한다.
상기 생물분자는 항체 또는 앱타머인 것이 바람직하나 이에 한정되지 않는다.
상기 고형기질은 플라스틱, 유리, 금속 및 실리콘으로 구성된 군으로부터 선택되는 것이 바람직하나 이에 한정되지 않는다.
이하, 본 발명을 실시예에 의해 상세히 설명한다.
단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.
<실시예 1> 혈청 수득
본 발명의 실험을 위해 정상인 75명과 유방암 환자 75명을 대상으로 하였다. 성별은 모두 여성으로 하였으며 정상인의 경우 나이는 44세 ~ 69세(mean : 52.8, median : 52)였으며 유방암 환자 나이는 31세 ~ 71세(mean : 53.6, median : 53) 였다. 유방암 환자의 병기별 분포는 1기-7명, 2기-33명, 3기-28명, 4기-7명이었다. 그리고 앞의 샘플과 별개로 분류 모델 검증을 위한 블라인드 테스트에 정상인 21명과 유방암 환자 23명의 혈청 샘플을 사용하였다.
상기 정상인 또는 유방암 환자로부터 Vacutainer SST Ⅱ tube(Becton Dickinson)에 말초혈액 5 ml을 채취하여 상온에 한 시간 동안 둔 후 3000 g에서 5분 동안 원심 분리한 후 상층액을 취해 혈청을 얻었으며 사용하기 전까지 -80℃에 보관하였다.
<실시예 2> 진단 및 스크리닝용 키트의 준비
본 발명자들은 바이오인프라에서 제작한 키트, RBM(Austin, TX) 또는 LINCO(St. Charles, MO)에서 구입한 다중분석 키트를 이용하여 실행하였다. 분석방법은 각 제조사에서 제공된 방법을 이용하여 실행하였으며, AFP(Alpha- fetoprotein), tPSA(total Prostate Specific Antigen), D-Dimer, Vitronectin, sICAM-1(Soluble Intercellular cell adhesion molecule-1), sVCAM-1(Soluble Vascular cell adhesion molecule-1), sCD40L(Soluble CD40 ligand), EGF(Epidermal growth factor), A1AT(Alpha-1-antitrypsin), tPAI-1(Total plasminogen activator inhibitor-1), ApoA-1(Apolipoprotein-A1), proApoA-1(Proapolipoprotein-A1), CRP(c-Reactive protein), Kininogen, VDBP(Vitamin D-binding protein), Hemoglobin 및 Cathepsin B(CB) 등의 17가지 단백질을 분석하였다.
상기 AFP와 tPSA는 RBM 키트를 사용하였고, tPAI-1, sICAM-1, sVCAM-1, sCD40L 및 EGF는 LINCO 키트를 사용하였으며, D-Dimer, Vitronectin, A1AT, ApoA-1, proApoA-1, CRP, Kininogen, VDBP, Hemoglobin 및 Cathepsin B(CB)는 여러 회사의 항체를 쌍(pair)으로 조합하여 다중 시스템(multiplex system)을 구축하였다(표 1).
항체들 또는 키트의 구입처
마커 |
구입처 |
AFP, tPSA |
Rules based medicine(Austin, TX) |
tPAI-1, sICAM-1, sVCAM-1, sCD40L, EGF |
LINCO Research(St. Charles, MO) |
A1AT |
Chemicon(Temecula, CA) |
Abcam(Cambridge, MA) |
proApoA1 |
Biodesign(Saco, ME) |
Bioinfra |
D-Dimer |
Biodesign(Saco, ME) |
ApoA1 |
Chemicon(Temecula, CA) |
AbD Serotec (Kingston, NH) |
Vitronectin |
Abcam (Cambridge, MA) Biodesign (Saco, ME) |
CRP |
바디텍메드(강원도 춘천) |
Kininogen |
R & D Systems(Minneapolis, MN) |
VDBP |
Abcam(Cambridge, MA) |
Hemoglobin |
Biodesign (Saco, ME) |
Bethyl Laboratories (Montgomery, TX) |
Cathepsin B |
R & D Systems(Minneapolis, MN) |
MPO |
LINCO Research(St. Charles, MO) |
IL-1ra |
LINCO Research(St. Charles, MO) |
EFG (ELISA) |
R & D Systems(Minneapolis, MN) |
마이크로스피어(micorsphere)에 항체를 결합시키기 위해 하기와 같은 방법을 사용하였다. 마이크로스피어 저장액(Microsphere stock solution)을 볼텍스(vortex)한 후 음파 용기(sonification bath)(Sonicor Instrument Corporation, Copiaque, NY)에서 20초 동안 두어 현탁하였다. 2x106개의 마이크로스피어를 마이크로튜브(microtube)에 옮겨 원심분리로 상층액을 제거한 후 3차 증류수 100㎕로 씻어주고 다시 0.1M 인산 나트륨 완충용액(Sodium phosphate buffer)(pH 6.2) 80㎕로 재현탁하였다. 50mg/ml의 N-하이드록시-설포숙시니마이드(N-hydroxy-sulfosuccinimide, Sulfo-NHS) 및 1-에틸-3-(3-디메틸아미노프로필)-카르보디이미드 하이드로클로라이드(1-ethyl-3-(3-dimethylaminopropyl)-carbodiimide hydrochloride(Pierce, Rockford, IL))를 10㎕씩 차례로 처리한 후 실온에서 20분 동안 섞어주었고, 원심분리로 상층액을 제거한 다음 50mM MES, pH 5.0으로 두 번 씻어주었다. 50mM MES 400㎕로 재현탁(resuspension)한 마이크로스피어에 25㎍의 항체를 포함한 50mM MES 100㎕를 첨가하여 섞어준 후 실온에서 두 시간 동안 섞어주었다. 반응은 암실에서 실행하였다. 항체 결합 반응이 끝난 마이크로스피어는 원심분리를 이용하여 PBS-1% BSA-0.02% Tween 20-0.05% sodium azide(PBS-TBN) 500㎕로 두 번 씻어주었고, 혈구 계산기(hemocytometer)로 개수를 측정하였다. 항체 결합된 마이크로스피어는 1x106/500㎕ PBS-TBN 농도로 4℃의 암실에서 보관하였다. 항체의 결합 효율은 2000개의 마이크로스피어를 PE가 결합된 2nd 항체와 반응시켜 확인하였다.
검출(detection) 항체는 바이오틴화(biotinylation)시킨 항체를 이용하였다. 바이오틴화은 제조사의 방법의 따라 EZ-Link Sulfo-NHS-Biotinylation Kit(Pierce)를 이용하였고, 바이오틴(biotin) 결합의 정도는 키트에 포함된 HABA(4'-hydroxyazobenzene-2-carboxylic acid)를 이용하여 확인하였다. 항체 하나당 결합된 바이오틴양은 8 ~ 12 개로 측정되었다. 개발된 분석은 검출 항체의 농도와 실험 반응시간을 더 최적화하였고, 민감도(sensitivity)는 연속 희석한 마커 단백질의 분석 측정 수치로 확인하였다. 인트라-어세이 변이성(Intra-assay variability)는 9개의 다른 농도의 혈청 샘플을 12 웰(well)/1 플레이트(plate)씩 2개의 플레이트(plate)로 3번의 다른 시간대에 실험하여 나온 측정치로 CV(coefficient of variation)를 계산하여 확인하였고, 5 ~ 15%로 평균 10%로 계산되었다. 개발된 키트는 교차반응(cross-reactivity)이 없음을 확인하였다.
표준 단백질의 경우, AFP, tPSA 단백질은 RBM의 키트에 포함된 것, tPAI-1, sICAM-1, sVCAM-1, sCD40L 및 EGF 단백질은 LINCO 키트에 포함된 것을 사용하였다. D-Dimer는 Abcam(Cambridge, MA), 및 A1AT, Kininogen과 Hemoglobin은 Sigma(Sanit Louis, MO), 및 Vitronectin, VDBP과 Cathepsin B(CB)는 Biodesign(Saco, ME), 및 CRP는 바디텍메드, 및 ApoA1 단백질은 Calbiochem(La Jolla, CA)에서 구입하여 사용하였고, proApoA1은 바이오인프라에서 제조하여 사용하였다.
<실시예 3> 다중 면역분석(multiplex immunoassay)
<3-1> RBM 프로토콜
분석은 96 웰(well)의 v-bottom micropate에서 실행되었다. 제조사에서 제공된 표준(standard)은 혈청 기질 희석액(serum matrix diluent)으로 연속 희석하여 사용하였다. 표준(duplication), 대조군(duplication) 및 환자혈청은 20㎕씩 웰에 처리하였고, 키트에 포함된 블로킹 완충용액(blocking buffer) 및 비드 혼합액(bead mixture)을 10㎕씩 웰에 더하여 섞어준 후 실온에서 한 시간 동안 반응시켰다. 검출 항체와 스트렙타비딘(streptavidin)-PE는 각각 한 시간, 30분씩 반응시켰고, filter-bottom 96-well microplate(Millipore)로 반응액을 옮긴 후 진공 다기관(vacuum manifold)을 이용하여 두 번씩 씻어주었다. 키트에 포함된 분석 완충용액 100㎕ 처리한 반응액을 96 웰 마이크로플레이트에 옮겨 LuminexTM 200으로 분석하였다. 결과는 업스테이트(Upstate)의 비드뷰 소프트웨어(beadview software)를 이용하여 5-파라메트릭 커브 피팅(5-parametric-curve fitting)으로 분석하였다.
<3-2> LINCO 프로토콜
분석은 filter-bottom 96-웰 마이크로플레이트(Millipore)에서 실행되었다. Filter-bottom 96-웰 마이크로플레이트는 키트에서 제공된 분석 완충용액을 처리하여 10분 동안 블로킹(blocking) 후 진공 다기관(vacuum manifold)을 이용하여 완충용액(buffer)을 제거하였다. 제조사에서 제공된 표준은 분석 완충용액을 이용하여 연속 희석(serial dilution)하였다. 표준(duplication), 대조군(duplication) 및 환자혈청은 25㎕씩 웰에 처리하였고, 각 웰에 비드 혼합액(bead mixture) 25㎕씩을 더한 후 실온에서 한 시간 동안 반응시켰다. 반응 플레이트를 진공 다기관(vacuum manifold)을 이용하여 두 번 씻어준 후 검출 항체 및 스트렙타비딘(streptavidin)-PE로 각각 한 시간, 30분씩 반응시켰다. 반응이 끝난 플레이트를 씻어준 다음 키트에서 제공된 분석 완충용액을 100㎕ 처리하여 LuminexTM 200으로 분석하였다. 결과는 업스테이트(Upstate)의 비드뷰 소프트웨어(beadview software)를 이용하여 5-파라메트릭 커브 피팅(5-parametric-curve fitting)으로 분석하였다.
<3-3> 바이오인프라 프로토콜
분석은 filter-bottom 96-웰 마이크로플레이트(Millipore)에서 실행되었다. Filter-bottom 96-웰 마이크로플레이트는 분석 완충용액(PBS / 2% BSA)을 처리하여 블로킹(blocking)하였다. 제조사에서 제공된 표준은 분석 완충용액을 이용하여 연속 희석하였다. 표준(duplication), 대조군(duplication) 및 환자혈청은 20㎕씩 웰에 처리하였고, 각 웰에 비드 혼합액(bead mixture) 20㎕씩을 더한 후 실온에서 한 시간 동안 반응시켰다. 반응 플레이트를 진공 다기관(vacuum manifold)을 이용하여 두 번 씻어준 후 검출 항체와 스트렙타비딘(streptavidin)-PE는 각각 한 시간씩 반응시켰다. 반응이 끝난 플레이트를 씻어준 다음 PBST 완충용액을 100㎕ 처리하여 LuminexTM 200으로 분석하였다. 결과는 업스테이트(Upstate)의 비드뷰 소프트웨어(beadview software)를 이용하여 5-파라메트릭 커브 피팅(5-parametric-curve fitting)으로 분석하였다.
<실시예 4> 데이터의 통계분석
모든 통계분석은 R 패키지(R Development Core Team (2007). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.)를 사용하였다.
<4-1> 마커 선정
17가지 단백질[AFP(Alpha-fetoprotein), tPSA(total Prostate Specific Antigen), D-Dimer, Vitronectin, sICAM-1(Soluble Intercellular cell adhesion molecule-1), sVCAM-1(Soluble Vascular cell adhesion molecule-1), sCD40L(Soluble CD40 ligand), EGF(Epidermal growth factor), A1AT(Alpha-1-antitrypsin), tPAI-1(Total plasminogen activator inhibitor-1), ApoA-1(Apolipoprotein-A1), proApoA-1(Proapolipoprotein-A1), CRP(c-Reactive protein), Kininogen, VDBP(Vitamin D-binding protein), Hemoglobin 및 Cathepsin B(CB)]과 단백질 비율 2가지(ApoA-1/proApoA-1, CRP/Kininogen) 중 유방암 진단에 좋은 마커를 찾기 위해 랜덤 포레스트(random forest) 방법을 사용하였다. 먼저 무작위로 유방암 환자 50명과 정상인 50명으로 이루어진 샘플 조합을 100개 만들고, 그 샘플 조합들로 만들어진 100개의 랜덤 포레스트(random forest) 분류 모델들의 feature importance 순서로 상위 15개 마커(D-Dimer, Vitronectin, sVCAM-1(Soluble Vascular cell adhesion molecule-1), sCD40L(Soluble CD40 ligand), EGF(Epidermal growth factor), A1AT(Alpha-1-antitrypsin), tPAI-1(Total plasminogen activator inhibitor-1), ApoA-1(Apolipoprotein-A1), proApoA-1(Proapolipoprotein-A1), Kininogen, VDBP(Vitamin D-binding protein), ApoA-1/proApoA-1, CRP/Kininogen), Hemoglobin 및 Cathepsin B(CB)를 선정하였다.
<4-2> 마커의 통계분석
선택된 15개 마커 중 D-Dimer, sCD40L, EGF, proApoA-1, CRP/Kininogen 및 Hemoglobin은 정상인에 비해 유방암 환자의 혈청에서 증가하는 경향을 보였고, Vitronectin, sVCAM-1, A1AT, tPAI-1, ApoA-1, Kininogen, VDBP, ApoA-1/proApoA-1 및 Cathepsin B(CB) 단백질은 정상인에 비해 유방암 환자의 혈청에서 감소하는 경향을 보였다(표 2).
상기 15개 마커의 유방암 환자와 정상인 간의 혈청 농도 차이의 유의성을 확인하기 위해 Mann-Whitney U-test를 실시하였다. 그 결과 sCD40L, EGF, CRP/Kininogen, proApoA-1, Vitronectin, sVCAM-1, tPAI-1, ApoA-1, Kininogen, VDBP, ApoA-1/proApoA-1, Hemoglobin 및 Cathepsin B(CB)는 유방암 환자와 정상인 간의 혈청 농도 차이에 유의성이 있었으나(p-value <0.05) A1AT와 D-Dimer는 유의성이 없었다(p-value >0.05). 그러나 이 두 마커(A1AT, D-Dimer)의 경우 뒤에 설명한 실시예 <4-3>과 표 6에 나타낸 것처럼 다른 마커들과 조합을 형성하면 분류 정확도를 향상시킬 수 있었다.
각 마커간 관련성을 검증하기 위해 상관관계분석을 실시하였다. 15가지 개별 단백질들 간의 스피어만 상관계수를 보면 ApoA-1/proApoA-1은 ApoA-1(r=0.76), proApoA-1(r=-0.77)과, EGF는 sCD40L(0.71)과 각각 상관관계가 있었으나 나머지 마커의 경우 모두 0.5보다 작은 값으로 각 단백질 간에 관련성은 낮았다.
혈청 단백질의 수준
마커 |
유방암 환자 |
정상인 |
p-value |
유방암/정상인 비율 |
*AUC |
평균 |
표준편차 |
평균 |
표준편차 |
D-Dimer
|
1340.28 |
2923.01 |
566.29 |
428.77 |
0.28911 |
2.37 |
0.55 |
Vitronectin
|
5130.93 |
2891.68 |
5652.00 |
2268.41 |
0.01788 |
0.91 |
0.61 |
sVCAM-1
|
737.72 |
177.43 |
844.17 |
167.22 |
6.71 x 10-5 |
0.87 |
0.69 |
sCD40L
|
261066.67 |
1218786.93 |
30885.33 |
27967.64 |
7.33 x 10-15 |
8.45 |
0.87 |
EGF
|
330.53 |
210.45 |
69.45 |
67.25 |
< 2.2 x 10-16 |
4.76 |
0.90 |
A1AT
|
3098.10 |
4879.11 |
3837.77 |
18764.23 |
0.59190 |
0.81 |
0.53 |
tPAI-1
|
18.60 |
6.08 |
23.71 |
9.34 |
0.00049 |
0.78 |
0.67 |
ApoA-1
|
219384.00 |
96210.65 |
321705.33 |
144869.71 |
2.28 x 10-6 |
0.68 |
0.72 |
proApoA-1
|
26088.59 |
10075.44 |
22078.13 |
8539.32 |
0.00646 |
1.18 |
0.63 |
Kininogen
|
20196.53 |
13874.61 |
34002.53 |
15306.15 |
1.05 x 10-7 |
0.59 |
0.75 |
VDBP
|
174976.00 |
36405.92 |
190866.67 |
46738.59 |
0.01366 |
0.92 |
0.62 |
Apoa-1/
proApoA-1
|
17.05 |
44.37 |
18.00 |
13.81 |
8.88 x 10-6 |
0.95 |
0.71 |
CRP/
Kininogen
|
0.24 |
1.10 |
0.14 |
0.76 |
0.00042 |
1.74 |
0.67 |
Hemoglobin
|
298.67 |
1138.76 |
33.06 |
73.66 |
4.70 x 10-7 |
9.03 |
0.73 |
CB
|
587.43 |
520.97 |
1093.15 |
862.14 |
2.94 x 10-7 |
0.54 |
0.74 |
*AUC(Area under the receiver operator characteristic(ROC) curve): ROC 곡선 아래 부위
<4-3> 유방암 분류모델 구축 및 검증
선택한 마커들의 유방암 진단 능력을 평가하기 위해 먼저 정상인 75명과 유방암 환자 75명 데이터에서 정상인 50명과 유방암 환자 50명으로 이루어진 훈련 집단(training set)과 정상인 25명, 유방암 환자 25명으로 된 평가 집단(test set)을 각각 무작위로 50개씩 만들고, 15개 마커(D-Dimer, Vitronectin, sVCAM-1, sCD40L, EGF, A1AT, tPAI-1, ApoA-1, proApoA-1, Kininogen, VDBP, ApoA-1/proApoA-1, CRP/Kininogen, Hemoglobin 및 Cathepsin B(CB))로 조합할 수 있는 모든 종류(32767가지)에 대해 LDA(linear discriminant analysis), RF(Random Forest) 및 SVM(support vector machine) 방법으로 훈련 집단(training set)을 이용하여 분류 모델을 만든 후 평가 집단(test set)으로 평가하였다. 그 결과, 개별 마커로 모델을 만들어 분류했을 때는 15가지 마커 중 유방암 분류에 70% 이상의 정확도를 보이는 것은 EGF 하나밖에 없었다. 나머지 마커들은 모두 70% 미만의 정확도를 보일 뿐이었다(표 3). 그러나 마커들의 조합으로 이루어진 분류 모델에서는 더 높은 정확도를 얻을 수 있었다. 예를 들어 EGF, CD40L, sVCAM-1 및 tPAI-1의 4개 마커로 이루어진 모델의 정확도는 89.2%(민감도 83.3%, 특이도 95.2%)로 단일 마커인 경우에 비해 훨씬 높은 정확도의 분류 모델을 만들 수 있었다(표 4).
또한, 정상인 21명과 유방암 환자 23명에 대한 별도의 데이터를 이용하여 앞에서 생성한 분류모델들을 검증하였다. 예를 들어 sCD40L, EGF, Kininogen, tPAI-1, proApoA-1, sVCAM-1 및 Vitronectin 마커 조합과 EGF, Kininogen, tPAI-1, proApoA-1, sVCAM-1 및 VDBP 마커 조합의 경우 LDA 방법을 사용했을 때 각각 정확도 91.3%(민감도 86.6%, 특이도 95.9%)와 정확도 90.6%(민감도 86.5%, 특이도 94.6%)를 나타내었고, 블라인드 테스트에선 각각 민감도 95.6%, 특이도 90.8%와 민감도 95.7%, 특이도 95.6%를 나타내었고, sCD40L, D-Dimer, EGF, Kininogen, tPAI-1, sVCAM-1, VDBP 마커 조합과 ApoA-1, sCD40L, CRP/Kininogen, EGF, Kininogen, tPAI-1, Vitronectin 마커 조합의 경우 RF 방법으로 만든 모델에 적용했을 때 각각 정확도 91.1%(민감도 90.3%, 특이도 91.9%)와 정확도 90.0%(민감도 88.2%, 특이도 91.8%)를 나타내었고, 블라인드 테스트에선 각각 민감도 91.9%, 특이도 84.8%와 민감도 89.0%, 특이도 86.1%를 나타내었다. 그리고 sCD40L, EGF, Kininogen, tPAI-1, proApoA-1, sVCAM-1, Vitronectin 마커 조합과 ApoA-1, Apoa-1/proApoA-1, sCD40L, D-dimer, EGF, Kininogen, tPAI-1, Vitronectin 마커 조합의 경우 SVM 방법을 사용했을 때 각각 정확도 91.8%(민감도 89.4%, 특이도 94.1%)와 정확도 90.6%(민감도 88.9%, 특이도 92.3%)를 나타내었고, 블라인드 테스트에선 각각 민감도 96.8%, 특이도 91.3%와 민감도 94.4%, 특이도 92.2%를 나타내었다(표 5 내지 표 8).
또한, sCD40L, D-dimer, EGF, Kininogen, tPAI-1, sVCAM-1 및 Vitronection의 조합인 경우 LDA, RF, SVM 방법을 사용했을 때 각각 정확도 90.7%(민감도 85.0%, 특이도 96.4%), 정확도 91.1%(민감도 90.3%, 특이도 91.8%), 정확도 91.6%(민감도 89.1%, 특이도 94.1%)를 나타내었고, Cathepsin B(CB), EGF, tPAI-1, proApoA-1, sVCAM-1 및 Vitronectin 조합의 경우 LDA, RF, SVM 방법을 사용했을 때 각각 정확도 91.2%(민감도 87.4%, 특이도 95.0%), 정확도 90.9%(민감도 91.2%, 특이도 90.6%), 정확도 90.4%(민감도 87.7%, 특이도 93.2%)를 나타내었으며, sCD40L, EGF, Hemoglobin, tPAI-1, proApoA-1, sVCAM-1 및 Vitronectin 조합의 경우 LDA, RF, SVM 방법을 사용했을 때 각각 정확도 91.2%(민감도 85.0%, 특이도 97.4%), 정확도 91.0%(민감도 89.6%, 특이도 92.4%), 정확도 92.7%(민감도 89.3%, 특이도 96.2%)를 나타내었다(표 8).
개별 마커를 이용한 분류(LDA)
마커 |
정확도(%) |
민감도(%) |
특이도(%) |
EGF
|
82.32 |
70.64 |
94.00 |
sCD40L
|
64.16 |
30.48 |
97.84 |
Kininogen
|
67.80 |
68.96 |
66.64 |
ApoA-1/proApoA-1
|
50.52 |
50.64 |
50.40 |
sVCAM-1
|
66.08 |
69.20 |
62.96 |
tPAI-1
|
63.52 |
70.96 |
56.08 |
ApoA-1
|
67.56 |
77.28 |
57.84 |
A1AT
|
45.76 |
60.16 |
31.36 |
D-Dimer
|
58.16 |
32.48 |
83.84 |
VDBP
|
57.48 |
62.08 |
52.88 |
CRP/Kininogen
|
50.32 |
32.00 |
68.64 |
Vitronectin
|
57.16 |
66.80 |
47.52 |
proApoA-1
|
62.16 |
61.20 |
63.12 |
Hemoglobin
|
57.16 |
17.36 |
96.96 |
CB
|
62.92 |
82.88 |
42.96 |
마커의 조합을 이용한 분류(LDA)
마커 |
정확도(%) |
민감도(%) |
특이도(%) |
EGF
|
82.32 |
70.64 |
94.00 |
EGF, sCD40L
|
83.48 |
72.40 |
94.56 |
EGF, sCD40L
sVCAM-1
|
84.84 |
76.16 |
93.52 |
EGF, sCD40L
sVCAM-1, tPAI-1
|
89.24 |
83.28 |
95.20 |
마커의 조합을 이용한 분류(RF)
마커 |
정확도(%) |
민감도(%) |
특이도(%) |
sCD40L
|
65.84 |
64.64 |
67.04 |
sCD40L, Kininogen
|
81.52 |
79.76 |
83.28 |
sCD40L, Kininogen
sVCAM-1
|
83.52 |
84.16 |
82.88 |
sCD40L, Kininogen
sVCAM-1, A1AT
|
84.24 |
82.88 |
85.60 |
sCD40L, Kininogen
sVCAM-1, A1AT
Vitronectin
|
87.88 |
87.52 |
88.24 |
마커의 조합을 이용한 분류(RF)
마커 |
정확도(%) |
민감도(%) |
특이도(%) |
EGF
sVCAM-1
|
81.24 |
79.84 |
82.64 |
EGF
sVCAM-1
A1AT
|
86.28 |
84.24 |
88.32 |
sCD40L
tPAI-1
|
77.40 |
76.40 |
78.40 |
sCD40L
tPAI-1
D-Dimer
|
81.32 |
79.12 |
83.52 |
마커의 조합을 이용한 분류(SVM)
마커 |
정확도(%) |
민감도(%) |
특이도(%) |
sCD40L
|
64.60 |
34.48 |
94.72 |
sCD40L,Kininogen
|
75.92 |
77.68 |
74.16 |
sCD40L,Kininogen
tPAI-1
|
78.72 |
78.40 |
79.04 |
sCD40L,Kininogen
tPAI-1, D-Dimer
|
79.56 |
82.48 |
76.64 |
<실시예 5> 혈장 시료 테스트(palsma sample test)
본 발명에서 선택된 유방암 관련 마커들 중 ApoA-1, ApoA-1/proApoA-1 비율, EGF, Hemoglobin, sCD40L 및 VDBP에 MPO(Myeloperoxidase)와 IL-1ra(Interleukin-1 receptor antagonist)를 추가하여 혈장 시료(plasma sample)들을 독립적으로 테스트하였다.
실험에 사용된 혈장 시료는 유방암 환자 442명과 정상인 184명이었다. 정상인의 경우 나이는 20세 ~ 67세(mean : 46.0, median : 46)였으며 유방암 환자 나이는 23세 ~ 78세(mean : 48.8, median : 48) 였다. 유방암 환자의 병기별 분포는 0기-61명, 1기-180명, 2기-147명, 3기-40명, 4기-1명 이었고 기타(병기 모름)-13명 이었다.
MPO와 IL-1ra의 경우 LINCO 키트를, EGF의 경우 R&D system에서 구입한 ELISA 키트를 사용하여 측정하였으며, 표준 단백질들도 각 키트에 포함된 것을 사용하였다(표 1). 나머지 마커와 자세한 실험 방법은 상기 <실시예 2> 및 <실시예 3>과 같다.
상기 8개 마커들 중 새로 추가한 MPO(Myeloperoxidase)와 IL-1ra(Interleukin-1 receptor antagonist)의 유방암 환자와 정상인 간 혈장 농도 차이의 유의성을 확인하기 위해 Mann-Whitney U-test를 실시하였다. 그 결과, MPO 및 IL-1ra는 유방암 환자와 정상인 간의 혈장 농도 차이에 유의성이 있었으며(p-value <0.05), 유방암 환자의 혈장에서 증가하는 경향을 보였다(표 9).
상기 마커들의 유방암 진단 능력을 평가하기 위해 먼저 정상인 100명과 유방암 환자 100명으로 이루어진 훈련 집단(training set)과 정상인 84명, 유방암 환자 342명으로 된 평가 집단(test set)을 각각 무작위로 50개씩 만들고 상기 8개 마커들로 조합할 수 있는 모든 종류(255가지)에 대해 LDA(linear discriminant analysis), RF(Random Forest) 및 SVM(support vector machine) 방법으로 훈련 집단(training set)을 이용하여 분류 모델을 만든 후 평가 집단(test set)으로 평가하였다. 그 결과, MPO와 IL-1ra는 개별 단백질로 분류 모델을 만들어 분류했을 때는 70% 이하의 정확도를 나타냈지만 다른 단백질들과의 조합으로 이루어진 분류 모델에서는 더 높은 정확도를 얻을 수 있었다. 예를 들어, MPO, Apoa-1/proApoA-1, Hemoglobin 및 sCD40L 4개 마커로 이루어진 모델의 정확도는 87.4%(민감도 86.7%, 특이도 88.1%), IL-1ra, Hemoglobin 및 sCD40L의 3개 마커로 이루어진 모델의 정확도는 86.6%(민감도 85.1%, 특이도 88.0%)로 단일 마커인 경우에 비해 훨씬 높은 정확도의 분류 모델을 만들 수 있었다(표 10 및 표 11).
혈장 단백질의 수준
마커 |
유방암 환자 |
정상인 |
p-value |
유방암/ 정상인 비율 |
*AUC |
평균 |
표준편차 |
평균 |
표준편차 |
MPO |
37.11 |
48.84 |
18.33 |
42.42 |
< 2.2 x 10-16 |
2.02 |
0.77 |
IL-1ra |
318.23 |
482.22 |
142.69 |
269.90 |
< 2.2 x 10-16 |
2.23 |
0.73 |
마커 혹은 마커의 조합을 이용한 분류(RF)
마커 |
정확도(%) |
민감도(%) |
특이도(%) |
MPO |
65.13 |
62.92 |
67.33 |
MPO, Apoa-1/proApoA-1 |
69.05 |
68.60 |
69.50 |
MPO, Apoa-1/proApoA-1, Hemoglobin |
77.13 |
77.32 |
76.93 |
MPO, Apoa-1/proApoA-1, Hemoglobin, sCD40L |
87.42 |
86.71 |
88.12 |
IL-1ra |
59.08 |
57.25 |
60.90 |
IL-1ra, Hemoglobin |
76.18 |
73.73 |
78.62 |
IL-1ra, Hemoglobin, sCD40L |
86.56 |
85.12 |
88.00 |