KR20210006864A

KR20210006864A - 췌장암 진단용 바이오마커 패널 및 그 용도

Info

Publication number: KR20210006864A
Application number: KR1020200083898A
Authority: KR
Inventors: 김영수; 김요섭; 손민수; 장진영
Original assignee: 주식회사 베르티스
Priority date: 2019-07-09
Filing date: 2020-07-08
Publication date: 2021-01-19
Also published as: EP3998480A4; WO2021006649A1; EP3998480A1; KR102289278B1; US20220268776A1; KR20210100068A

Abstract

본 발명은 췌장암 진단용 바이오마커 및 그 용도와 관련된 것이다. 본원에 따른 마커는 14종의 다중 마커 패널을 통해 췌장암 또는 췌장암의 전구 병변의 발병 가능성, 조기 진단 및 질병 정도를 유의적으로 예측 또는 파악할 수 있으며, 췌장암의 종양형성 연구에 활용될 수 있다.

Description

췌장암 진단용 바이오마커 패널 및 그 용도 {Biomarker panel for diagnosis of pancreatic cancer and its use}

본 발명은 췌장암 진단용 바이오마커 및 그 용도와 관련된 것이다.

췌장암은 2015년 국가암등록통계에 의하면 우리나라 암 발생 8위를 차지하는 중요한 질환이고 현재 그 발생율이 지속적으로 늘어나고 있다. 아직까지 췌장암에 효과적인 항암제가 개발되어 있지 않아 현재 췌장암의 유일한 근치적 치료 방법은 수술이다. 하지만 췌장암은 특징적인 증상이 없고 조기진단 방법이 없어 실제로 수술이 가능한 환자는 20% 내외이고, 나머지 80% 이상의 환자가 치료가 불가능한 말기 암 상태에서 진단되고 있다. 또한 초기 췌장암에 해당하는 1, 2기에는 수술적 절제가 가장 좋은 치료법이지만, 수술적 절제를 받은 췌장암 환자의 생존률은 10-20% 정도로 나타난다. 췌장암은 가장 예후가 좋지 않은 암으로, 췌장이 후복막 장기이기 때문에 조기발견이 어렵고, 2cm 이하의 작은 암이더라도 췌장암 세포의 운동성이 매우 높기 때문에 주위의 혈관, 소화관, 신경 등에 곧바로 침윤되며, 근처의 림프절이나 간장 등에 전이된다. 따라서, 췌장암의 정기적 진단, 조기진단 및 질병 정도를 예측하는 것은 매우 중요하다.

췌장암 진단은 종양 표지자를 이용한 검사(CA19-9), 영상학적 검사(복부 초음파, 복부 CT, 자기공명영상 MRI, 내시경 초음파, 내시경역행성담췌관조영술, PET, 진단적 복강경), 조직검사 등으로 이루어진다. 그러나, 상기 진단 방법은 정확도가 떨어지거나, 환자에게 고통이 따르는 등 그 수행 방법이 매우 불편하다. 따라서, 간편하고 신속하게 췌장암을 진단할 수 있는 검사 방법의 개발이 요구되며, 환자에게 비침습적이고 신속하며 민감도/특이도 향상을 위한 새로운 혈액검사기반 진단 마커가 필요하다. 이에 따라 췌장암의 예후를 증대시킬 수 있는 바이오마커가 활발히 연구되고 있다.

현재 미국 FDA에 승인을 받은 췌장암 진단 마커로는 CA19-9이 존재한다. CA19-9은 전체적으로 약 79%의 민감도와 82%의 특이도를 갖는 것으로 알려져 있다. 그러나 췌장암 환자 중 10-15%는 Lewis A antigen의 부족으로 CA19-9이 발현되지 않는 환자도 존재하며, 췌장암 이외에 간암, 위암, 폐암, 난소암, 갑상선 암에서도 증가할 수 있다고 알려져 있다. 따라서 CA19-9만으로 췌장암의 진단에는 제한이 존재한다. 또한 CA19-9을 이용하여 췌장암의 선별검사 시행 시 진단 기준은 37 U/mL로 지정하고 있으나, 연구결과에 따르면 37 U/mL를 기준치로 하여 무증상 환자를 대상으로 검사하였을 때 악성 종양에 대한 CA 19-9의 양성 예측도는 췌장암에 대해서는 0.5%, 다른 암성 질환에 대해서는 3.4%로 매우 낮은 것으로 확인되었다. 즉, 무증상 환자에서는 CA19-9 검사는 췌장암 진단에 유용성이 매우 낮은 것이다.

대한민국 공개특허 2015-0030046호는 췌장암 진단용 바이오 마커로서 보체인자 I 단백질의 개체 시료 내 수준을 분석하여 췌장암을 진단하기 위한 정보를 제공하는 방법 및 보체인자 I 단백질에 특이적으로 결합하는 폴리펩타이드 또는 항체를 포함하는 췌장암 진단용 조성물을 개시한다.

따라서, 췌장암의 발병, 발병 가능성 또는 위험도를 간편하고 정확하게 조기 진단할 수 있는 췌장암 진단 마커 개발이 필요하다.

본원은 췌장암 진단을 위한 바이오마커 패널을 제공하고자 한다.

한 양태에서 본원은 표 1부터 선택되는 두 개 이상 마커 조합의 발현 수준 또는 발현량 측정용 물질을 포함하는 췌장암 진단용 바이오마커 패널 또는 조성물을 제공한다.

일 구현예에서 두 개 이상 마커의 조합은 본원 청구항, 표 5, 표 8 및 표 9-1 및 9-2에 기재되어 있다.

다른 구현예에서 본원에 따른 각 바이오마커의 조합은 기존 췌장암 마커인 CA19-9을 추가로 포함할 수 있다.

다른 구현예에서 본원에 따른 각 바이오마커의 발현 수준을 단백질 또는 핵산 수준에서 검출할 수 있는 시약을 포함한다.

일 구현예에서는 단백질 발현 수준은 특히 질량 분석법으로 수행되며, 탠덤 질량 분석법, 이온 트랩 질량 분석법, 삼중사극 질량 분석법, 하이브리드 이온 트랩/쿼드러폴 질량 분석법 또는 비행시간 질량 분석법을 포함한다.

일 구현예에서 상기 질량 분석법에 사용되는 모드는 선택 반응 모니터링(Selected Reaction Monitoring, SRM) 또는 다중 반응 모니터링(Multiple Reaction Monitoring, MRM), 특히 MRM이다.

일 구현예에서 MRM 분석에 사용되는 펩타이드는 표 2와 같으며, 일부 단백질의 경우, 하나 이상의 펩타이드가 사용될 수 있다.

다른 양태에서 본원은 췌장암 진단에 필요한 정보를 제공하기 위하여, 대상체로부터 분리된 혈액으로부터 표 5, 표 8 및 표 9-1 및 9-2에 따른 하나 이상의 바이오마커 패널 발현 수준을 측정하는 단계; 및 상기 측정 결과를 대조군 시료의 해당 마커의 상응하는 측정 결과와 비교하여, 췌장암과 연관시키는 단계를 포함하는, 인비트로에서 췌장암 진단용 바이오마커의 검출 방법을 제공한다.

본원에 따른 방법의 일 구현예에서 상기 각 바이오마커의 조합은 CA19-9을 추가로 포함할 수 있다.

본원에 따른 방법의 일 구현예에서 상기 연관시키는 단계에서, 상기 대상체의 측정 결과 그 발현 수준이 상기 대조군에 측정된 발현 수준과 비교하여 증가 또는 감소하는 경우, 상기 대상체를 췌장암으로 판단하는 것을 추가로 포함하며, 상기 증가하는 마커는 ADIPO, AGT, BTD, C1R, C1S, C4BPA, C4BPB, C5, C6, CDH11, CFH, CFI, C7, CPN2, CTSD, FCGBP, FSTL1, GSTP1, HSPG2, ICAM1, IFRD1, IGFBP2, ITIH4, LDHB, LRG1, MBL2, MMSA, P4HB, PKM2, PPBP, PROS1, SERPINC1, SOD3, SPARC, THBS1, TXN, 및 VIM이고, 상기 감소하는 마커는 APOC1, APOH, CAP1, CLU, COL4A2, CORO1C, ECM1, HRG, IGFBP3, SERPINA5, ITIH2, KLKB1, PDCD4, PTPRJ, SEPP1, SFTPB, TTHY이다.

본원에 따른 방법의 일 구현예에서 상기 발현 수준을 측정 하는 단계에서 상기 각 바이오마커의 발현 수준은 탠덤 질량 분석법, 이온 트랩 질량 분석법, 삼중사극 질량 분석법, 하이브리드 이온 트랩/쿼드러폴 질량 분석법 또는 비행시간 질량 분석법을 포함하는 질량 분석법으로 수행된다.

본원에 따른 방법의 일 구현예에서 상기 질량 분석법에 사용되는 모드는 선택 반응 모니터링(Selected Reaction Monitoring, SRM) 또는 다중 반응 모니터링(Multiple Reaction Monitoring, MRM), 특히 MRM이다.

본원에 따른 방법의 일 구현예에서 상기 MRM 분석에 사용되는 펩타이드는 표 2와 같으며, 일부 단백질의 경우, 하나 이상의 펩타이드가 사용될 수 있다.

다른 양태에서 본원은 표 1과 같은 다양한 마커로부터 췌장암 진단에 최적의 효과를 나타낼 수 있는 바이오패널 구성에 필요한 마커의 조합을 선별/구성하는 방법에 관한 것이다.

일 구현예에서 상기 방법은 대상체로부터 분리된 혈액에서 질량분석법을 이용하여, 복수 개 바이오마커의 발현량 데이터를 획득하는 단계로, 상기 복수 개의 바이오마커는 대조군의 발현량과 비교하여 췌장암 환자에서 발현량에 변화가 있는 바이오마커이고, 대조군은 정상 및 양성췌장종양이고; 및 상기 단계에서 획득된 복수 개 발현량 데이터를 기준으로 췌장암의 진단을 위한 바이오마커 패널 구성을 위한 바이오마커 조합을, 딥러닝, 로지스틱 리그레션 또는 SVM(Support Vector Machine)을 포함하는 머신러닝 방법을 이용하여 선별하는 단계를 포함하는, 췌장암 진단을 위한 바이오마커 패널 구성방법이다.

일 구현예에서 상기 딥러닝은 H2o 패기지의 Feed-Forward neural network 이며, 이에 사용되는 하이퍼 파라미터는 하기 기준을 만족하고: 활성화 함수 함수식 (1): ReLU (z) = max (0, z); 은닉층(Hidden Layer) 수 및 상기 은닉층의 뉴론 수는 각각 2개 및 20개; 학습방법은 ADADELTA 옵티마이저, 또는 Epoch(학습반복횟수) 400회이고, 과적합을 방지하기 위한, L2 정규화는 1E-5 및 드랍아웃은 0.5; 1회 학습시 샘플 숫자는 -2; Max w2는 10이다.

다른 구현예에서 상기 SVM의 하이퍼 파라미터는 다음 기준을 만족한다: 커널(Kernal): 가우시안 RBF(gaussian radial basis function); 감마(Gamma): 0.15; 및 코스트(cost): 2.

다른 구현예에서 상기 방법은, 상기 딥러닝이 사용되는 경우, 상기 질량분석법을 이용하여 결정된 복수 개 바이오마커의 발현량 데이터 획득 단계 후에, 하나의 시료에 대한 3회 반복 분석 결과에 대한 CV(coefficient of variation)의 Cutoff 값을 10% 초과; 및/또는 실험대상 펩타이드/내부표준 (SIS) 펩타이드)의 비가 0.1 내지 10; 및/또는 분석시료 배치별 바이아스인 Confounding Factor에 영향을 받는 펩타이드와 같은 기준을 만족하는 발현량 데이터는 제외되는 데이터 전처리 단계를 추가로 포함한다.

일 구현예에서 상기 발현량은 탠덤 질량 분석법, 이온 트랩 질량 분석법, 삼중사극 질량 분석법, 하이브리드 이온 트랩/쿼드러폴 질량 분석법 또는 비행시간 질량 분석법을 포함하는 질량 분석법으로 수행된다. 본원에 따른 방법의 일 구현예에서 상기 질량 분석법에 사용되는 모드는 선택 반응 모니터링(Selected Reaction Monitoring, SRM) 또는 다중 반응 모니터링(Multiple Reaction Monitoring, MRM).

일 구현예에서 상기 질량 분석법은 MRM 모드이고, 상기 복수 개 바이오마커 및 질량 분석법에 사용된 각 바이오마커의 펩타이드는 표 2와 같다.

본원에 따른 마커 및 이를 이용한 방법은 췌장암의 발병 가능성 및 진단을 더 향상된 성능으로 예측 사용할 수 있다. 또한 질량분석기반의 MRM(Multiple Reaction Monitoring)을 이용할 경우, 기존 병원 임상 영역에서의 면역분석 방법 대신에 펩타이드를 MRM으로 검사하는 방법으로 실용화가 용이하고, immunoassay kit 방법인 CA19-9 검사와 병행하여 더욱 향상된 정확도로 췌장암을 진단하는 방법으로 활용될 수 있다. 본원에 따른 마커는 혈액을 이용한 비침습성 진단 방식으로 가정 및 일반 의원에서의 조기 발견에 매우 유용하다. 대상 환자의 고통과 경제적 부담을 경감해주며, 나아가 건강 검진 시 단순한 혈액 검사를 통해 췌장암을 검출할 수 있어 국가적인 관점에서 의료 비용의 절감 효과를 가지고 올 수 있다.

도 1은 본원의 한 구현예에 따른 퍼셉트론의 모식도이다.
도 2는 본원의 한 구현예에 따른 활성화 함수 ReLU의 함수식 및 그래프이다.
도 3은 본원의 한 구현예에 따른 MRM 기술 모식도이다.
도 4는 본원의 한 구현예에 따른 MRM 상대정량 Peak 예시를 나타내는 그래프이다.
도 5는 본원의 한 구현예에 따른 검량선 결과를 나타내는 그래프이다.
도 6은 본원의 한 구현예에 따른 재현성 있는 마커 후보군 선정 과정을 나타내는 순서도이다.
도 7은 본원의 한 구현예에 따른 딥러닝 네트워크 구성 예시를 나타내는 모식도이다.
도 8은 본원의 한 구현예에 따른 딥러닝 네트워크 하이퍼 파라미터 최적화 과정을 나타내는 순서도이다.
도 9는 본원의 한 구현예에 따른 딥러닝 네트워크의 주요 하이퍼 파라미터 최적화 결과를 나타내는 그래프이다.
도 10은 본원의 한 구현예에 따른 데이터 변환 전 후의 왜도값(Skewness)의 분포 그래프이다.
도 11은 본원의 한 구현예에 따른 훈련세트와 테스트세트에서 다중마커패널의 ROC 분석 결과이다.
도 12는 본원의 한 구현예에 따른 훈련세트와 테스트세트에서 다중마커패널의 민감도, 특이도 결과이다.
도 13은 본원의 한 구현예에 따른 독립검증세트에서 다중마커패널의 ROC 분석 결과이다.
도 14는 본원의 한 구현예에 따른 독립검증세트에서 다중마커패널의 민감도, 특이도 결과이다.
도 15는 본원의 한 구현예에 따른 추가 코호트 1, 2에서 다중마커패널의 ROC 분석 결과이다.
도 16은 본원의 한 구현예에 따른 추가 코호트 1, 2에서 다중마커패널의 민감도, 특이도 결과이다.

본원은 췌장암 환자로부터 유래된 생물학적 시료에서 대조군과 비교하여 차별적 발현을 나타내는, 췌장암을 진단할 수 있는 바이오마커 패널의 개발에 근거한 것이다.

한 양태에서 본원은 하기 표 1에 기재된 췌장암 진단용 바이오마커 또는 바이오마커의 조합에 관한 것이다.

[표 1]

본원에서 “췌장암”은 악성종양인 췌관 선암종(pancreatic ductal adenocarcinoma), 선방세포 암종(acinar cell carcinoma), 신경 내분비 종양(neuroendocrine tumor)과 낭종성 양성종양인 장액성 낭성 종양(serous cystadenoma), 점액성 낭성 종양(mucinous cystic neoplasm), 췌관 내 유두상 점액 종양(intraductal papillary mucinous neoplasm, IPMN), 고형 가유두상 종양(solid pseudopapillary tumor)을 포함하는 것이며, 또한 1기, 2기 등과 같이 분류되는 암의 진행단계에 따른 췌장암을 포함한다.

본원에 따른 마커는 췌장암의 발병 및 진행에 대한 지표가 될 수 있으며, 췌장암의 발병, 질환의 진행, 질환의 진단 또는 예후에 이용될 수 있다. 또한 본원에 따른 바이오마커는 췌장암의 근치적 절제술이 가능한 단계에서 최대한 조기진단을 할 수 있다. 또한 본원의 마커 단백질은 췌장암 진단용 조성물 또는 키트를 이용하여 췌장암 진단에 필요한 정보를 제공 방법에 사용될 수 있다.

본원에서 “진단”은 특정 질병 또는 질환에 대한 한 객체 즉 검사 대상자의 감수성(susceptibility)을 판정하는 것, 한 객체가 특정 질병 또는 질환을 현재 가지고 있는 지 여부를 판정하는 것, 특정 질병 또는 질환에 걸린 한 객체의 예후(prognosis)(예컨대, 전-전이성 또는 전이성 암 상태의 동정, 암의 단계 결정 또는 치료에 대한 암의 반응성 결정)를 판정하는 것 또는 테라메트릭스(therametrics)(예컨대, 치료 효능에 대한 정보를 제공하기 위하여 객체의 상태를 모니터링 하는 것)을 포함한다.

본 발명에서 용어 "진단용 마커 또는 진단 마커(diagnosis marker)"란 췌장암 세포를 정상 세포와 구분하여 진단할 수 있는 물질로, 정상세포에 비하여 췌장암을 가진 조직이나 부위에서 증가(ADIPO, AGT, BTD, C1R, C1S, C4BPA, C4BPB, C5, C6, CDH11, CFH, CFI, C7, CPN2, CTSD, FCGBP, FSTL1, GSTP1, HSPG2, ICAM1, IFRD1, IGFBP2, ITIH4, LDHB, LRG1, MBL2, MMSA, P4HB, PKM2, PPBP, PROS1, SERPINC1, SOD3, SPARC, THBS1, TXN, VIM) 또는 감소(APOC1, APOH, CAP1, CLU, COL4A2, CORO1C, ECM1, HRG, IGFBP3, SERPINA5, ITIH2, KLKB1, PDCD4, PTPRJ, SEPP1, SFTPB, TTHY) 양상을 보이는 단백질 또는 핵산을 포함한다. 표 1에 기재된 각 단백질의 아미노산 및 유전자 서열은 Uniprot 에서 검색이 가능하다.

일 구현예에서 특히 상기 마커들은 두 개 이상의 조합을 포함하는 바이오마커 패널로 사용되어 정상 대조군으로부터 췌장암 환자의 진단 및/또는 예후, 췌장암의 진행 상태를 구분할 수 있는 변별력(특이도 및/또는 민감도)을 향상시키는 방법으로 활용 될 수 있다.

본 명세서 내 용어, "바이오마커 패널"은 췌장암 진단을 위한 바이오마커의 임의의 조합을 사용하여 구성된 것이다. 이러한 조합은 전체 세트, 또는 그의 임의의 서브세트 또는 서브조합을 의미할 수 있다. 본원에 따른 바이오마커 패널은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53개 또는 54개 바이오마커를 포함 할 수 있다. 본원에서 바이오마커 패널은 패널에 포함되는 각 마커의 검출용 물질을 포함하는 바이오마커 패널 또는 바이오마커 패널 조성물일 수 있다.

일 구현예에서 본원에 따른 마커의 조합은 하기로 구성되는 군으로부터 선택되는 하나 이상이다: TTHY, ITIH4, CLU, SEPP1, LRG1, KLKB1, C1R, SERPINA5, BTD, IGFBP2, C5, PROS1 및 CFI; LRG1, PPAP, C5, KLKB1, CLU, IGFBP2, THBS1, IFRD1, SERPINA5, TTHY, ICAM1, 및 VIM; CLU, C5, KLKB1, PPBP, IFRD1, IGFBP2, ICAM1, C4BPA, PTPRJ, ECM1, VIM, C4BPB, SERPINA5 및 TTHY; CLU, C5, KLKB1, PPBP, ICAM1, IFRD1, IGFBP2, VIM, PTPRJ, ECM1, GSTP1, C4BPA, C4BPB, SERPINA5, TTHY, CPN2 및 APOH; THBS1, IGFBP3, C5, CLU, IGFBP2, ECM1, ICAM1, SERPINC1, CFI, ADIPO, PTPRJ, KLKB1, C6, PPBP, 및 C4BPA; TTHY, ITIH4, C4BPB, CLU, SEPP1, KLKB1, C1R, PTPRJ, ECM1, ADIPO, SERPINA5, VIM, ICAM1, IGFBP2, C4BPA, C5, PPBP, THBS1, C1S, C6, SERPINC1, APOH, 및 IGFBP3; THBS1, IGFBP2, C5, CLU, ECM1, ICAM1, TTHY, C4BPA, IFRD1, KLKB1, C1R 및 C4BPB; THBS1, IGFBP2, IGFBP3, C5, CLU, ECM1, ICAM1, TTHY, C4BPA, C7, SERPINC1, PPBP, SERPINA5, VIM 및 LDHB; TTHY, C4BPB, CLU, C1R, ECM1, SERPINA5, LDHB, COL4A2, SERPINC1, VIM, ICAM1, IGFBP2, C4BPA, C5, PPBP, C1S, LRG1, APOH, C7 및 IGFBP3; THBS1, HSPG2, TTHY, IFRD1, IGFBP2, ECM1, ICAM1, SFTPB, SPARC, C4BPA, KLKB1, SERPINA5, C5 및 COL4A2; TTHY, KLKB1, PTPRJ, ECM1, SFTPB, SERPINA5, COL4A2, ITIH2, ICAM1, IGFBP2, CPN2, C4BPA, C5, SPARC, HSPG2 및 THBS1; PPBP, HRG, PKM2, LRG1, AGT, ICAM1, PDCD4, C7, C5, ITIH4, CTSD, IGFBP3, C4BPA, LDHB 및 APOC1; PKM2, HRG, AGT, APOC1, PDCD4, THBS1, C5, LDHB, PPBP, ITIH4, CFH, C4BPA, C1S, LRG1, C7, ICAM1, IGFBP3, CTSD 및 SOD3; PKM2, TXN, HRG, AGT, APOC1, CFH, PDCD4, THBS1, C5, LDHB, PPBP, ITIH4, FSTL1, C4BPA, C1S, LRG1, C7, ICAM1, IGFBP3 및 CTSD; PPBP, HRG, LRG1, PDCD4, AGT, MBL2, PKM2, ICAM1, THBS1, C5, ITIH4, C7, APOC1 및 CFH; LRG1, SEPP1, IGFBP3, CLU, SERPINC1, C1R, P4HB, CDH11, FCGBP, CPN2 및 BTD; 및 P4HB, CORO1C, FCGBP, MMSA, SERPINC1, SEPP1, LRG1, C1R, BTD, CPN2, IGFBP3, CLU 및 CAP1.

일 구현예에서 본원에 따른 바이오마커의 조합 또는 바이오마커 패널은 기존에 췌장암 진단용 마커로 알려진 CA19-9을 추가로 포함할 수 있다.

본원에 따른 바이오마커 패널의 구성을 위해 본원에 따른 용도에 최적의 효과를 나타내는 바이오마커의 조합을 선별하여 사용할 수 있다.

이에 다른 양태에서 본원은 머신러닝 방법을 이용하여 예를 들면 상기 표 1과 같은 복수 개 바이오마커의 발현량 데이터를 이용하여 바이오마커 패널에 포함될 마커의 조합을 선별하는 바이오마커 패널 구성방법에 관한 것이다.

머신러닝은 기본적으로 알고리즘을 이용해 데이터를 분석하고, 분석을 통해 학습하며, 학습한 내용을 기반으로 판단이나 예측을 하는 것이다. 대량의 데이터와 알고리즘을 통해 컴퓨터 그 자체를 ‘학습’시켜 작업 수행 방법을 익히는 것을 목표로 하지만, 우수한 성능의 예측 및 진단 모델을 개발하기 위해서는 알고리즘의 선택 및 각 알고리즘에 사용되는 파라미터의 최적화가 매우 중요하다.

일 구현예에서 본원에 따른 마커는 두 개 이상의 복수 개의 마커가 패널로 사용된다. 본원은 머신러닝 방법을 이용하여 췌장암 진단 마커 패널을 구성하였으며, 특히 딥러닝(Deep-Learning), SVM(Support Vector Machine), 로지스틱 리그레션(Logistic Regression)을 통하여 다중마커패널의 구축한다. 머신러닝 방법 중 하나인 딥러닝은 기존의 선형 모델이 가진 한계를 극복하며 고 차원의 복잡한 데이터에서 특징을 추출 하거나 패턴을 추출 및 파악하여 보다 나은 성능을 제공할 수 있다.

딥러닝 알고리즘을 통한 네트워크를 구성하는 기본 단위는 도 1에 나타낸 퍼셉트론(Perceptron)이며, 이 퍼셉트론은 입력값, 가중치, 활성화 함수(activation function)로 이루어져있다. 퍼셉트론의 기본 구조는 입력값(x)와 가중치 값의 곱이 활성화 함수로 입력되게 되며, 이 활성화 함수는 일반적으로 일정 값 이상이면 다음 층(layer)로 값을 전달하거나 그 이하이면 다음 층으로 전달하지 않는 역할을 한다. 이러한 특성을 갖는 활성화 함수 때문에 인간의 뉴런의 구조와 유사하다고 하여 딥러닝, 인공신경망으로 불린다. 퍼셉트론의 입력값은 사용자가 분석하고자 하는 데이터(본 발명의 경우 MRM-MS을 통한 Endogenous 펩타이드와 SIS 펩타이드(내부표준물질)의 피크 면적 비율 값)가 사용되며 가중치는 각 특성(변수, feature)에 대하여 딥러닝 네트워크를 학습 시 결정된 값을 사용하게 된다. 또한 활성화 함수는 입력값과 가중치값의 곱을 입력값으로 받아 다음 층(Layer)에 전달 시, 어떤 값으로 전달하지를 결정하는 함수이다. 퍼셉트론을 여러 개를 연결 시켜 하나의 빌딩 블록으로 구성하고 이 빌딩 블록을 여러 개를 연결 함으로 써 인공 신경망, 즉 딥러닝 네트워크의 형태를 가지게 된다. 이 빌딩 블록은 딥러닝에서 흔히 말하는 층(layer)이 되게 되며, 각 층안에 구성되는 퍼셉트론은 노드(node)나 뉴런(Neuron)이 된다.

기본적인 딥러닝 네트워크의 구조는 입력층(Input Layer), 은닉층(hidden layer), 출력층(Output layer)으로 구성되며, 딥러닝은 이 은닉층의 개수를 충분히 많이 구성 할 수 있는 특징을 가진다. 일 구현예에서 본원에 사용된 딥러닝 네트워크는 딥러닝의 기본적인 형태인 전방 전달 신경망(Feed-Forward neural network)이 사용되었다. 입력값과 가중치값의 곱을 입력으로 받는 활성화 함수는 딥러닝 네트워크의 학습 시 모델의 성능을 결정하는 중요한 역할을 하게 된다. 딥러닝에서 많이 쓰이는 활성화 함수의 종류로는 시그모이드 함수(sigmoid), ReLU(rectified linear unit), TanH (hyperbolic tangent) 등이 있으며, 일 구현예에서 도 2의 ReLU 함수를 사용하여 학습을 진행 및 모델을 구성하였다.

딥러닝을 이용하여 구성된 모델은 2개의 은닉층이 20개의 노드로 구성되어 있으며, 활성화 함수로는 ReLU가 사용되었다. 이렇게 구성된 딥러닝 네트워크는 고차원의 단백체 분석 데이터(본 발명의 경우엔 68개 펩타이드에 대한 1008례 혈액시료에서의 정량 분석 결과)를 입력으로 받아 학습을 진행하게 되며, 학습시에 각 노드들의 가중치 결정 및 모델을 구성하는 단백질의 조합을 결정할 수 있다.

SVM 또한 머신러닝의 종류 중 하나로, 주로 분류와 회귀 분석을 위해 사용된다. 두 그룹 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM은 주어진 데이터 집합을 바탕으로 새로운 데이터가 어느 그룹에 속할지 판단하는 선형 분류 모델을 만든다. 결과적으로, SVM은 서로 다른 두 그룹의 데이터를 분리할 수 있는 최적의 초평면(결정 경계)를 찾는 알고리즘이다. SVM은 선형 분류와 더불어 비선형 분류에서도 사용될 수 있으며, 비선형 분류를 하기 위해서 주어진 데이터를 고차원 공간으로 사상하는 작업이 필요한데, 이를 효율적으로 하기 위해 커널 트릭(Kernel trick)을 사용하기도 한다. SVM에서 주로 사용되는 커널은 가우시안 RBF(gaussian radial basis function), 다항(Polynomial), 시그모이드(Sigmoid)가 있으며, 본 발명에서는 RBF 커널을 사용하여 모델을 구성하였다.

SVM의 RBF 커널을 사용 시, 두 가지 파라미터인 Cost와 Gamma의 설정이 필수적이다. Cost는 SVM 모델에 얼마만큼 오차를 허용할 지에 대한 파라미터 이다. 즉, 얼마나 많은 데이터 샘플이 다른 그룹에 놓이는 것을 허용하는지를 결정하는 것이며, cost 값이 작을수록 많이 허용하고, 클수록 적게 허용한다. Cost가 낮은 모델은 일반적인 초평면을 찾아내는 반면, cost가 높은 모델은 분류하고자 하는 두 개의 클래스가 더 완벽하게 분류되는 초평면을 찾게 된다. 따라서, Cost에 따라 과적합(overfitting)이나 과소적합(underfitting)이 일어날 수 있다. Gamma는 위의 SVM 커널과 관련이 있는 파라미터이며, 가우시안 함수의 표준편차를 조정하는 값으로써, 큰 값을 가질수록 작은 값의 표준편차를 가진다. gamma가 조정됨에 따라 각 데이터들의 영향력의 거리가 달라지며, gamma가 작은 경우 초평면으로부터 멀리 떨어진 점들이 분류의 고려 대상이 되며, gamma가 큰 경우 초평면에 가까운 점들만이 계산에 고려된다. gamma 값도 cost 값과 마찬가지로 과적합과 과소적합이 일어날 가능성이 있으므로 모델에 따른 적절한 파라미터의 튜닝이 필요하다.

로지스틱 리그레션(Logistic regression)은 회귀를 사용하여 데이터가 어떤 그룹에 속할 확률을 0에서 1사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 그룹에 속하는 것으로 분류해주는 알고리즘이다. 로지스틱 리그레션은 일반 선형 모델에 오즈(odds)를 자연로그(logit 변환)변환을 수행한 형태이며, 일반 선형모델과 같이 로지스틱 리그레션 또한 선형 모델이 얻어진다.

본원에 따른 바이오마커 패널의 구성을 위해, 대상체로부터 분리된 혈액은 질량분석법을 이용하여 복수 개의 바이오마커 발현량 데이터를 획득하고 상기 복수 개의 바이오마커는 대조군의 발현량과 비교하여 췌장암 환자에서 발현량이 증가한 바이오마커이고, 대조군은 정상 및 양성췌장종양이다.

일 구현예에서 본원에 따른 방법에 사용되는 발현데이터는 질량분석법인 MRM-MS 정량 분석 값이 딥러닝 모델에 입력값으로 사용된다. 이 입력값은 이미 학습이 완료된 모델의 각 단백질(변수)에 해당하는 가중치 값과 곱해진 이후 활성화 함수를 거쳐 다음 층(layer)로 전달되며, 이러한 과정을 2개의 은닉층을 지나는 동안 하게 된다. 이후 마지막 출력층에서 최종 예측 값이 나오게 되며 이 값을 통해 췌장암 환자와 정상인을 판별할 수 있다.

본원에 따른 방법에 사용되는 질량분석법은 탠덤 질량 분석법, 이온 트랩 질량 분석법, 삼중사극 질량 분석법, 하이브리드 이온 트랩/쿼드러폴 질량 분석법 및/또는 비행시간 질량 분석법을 포함할 수 있다. 이때 사용되는 질량 분석법 모드는, 예를 들어 선택 반응 모니터링(Selected Reaction Monitoring, SRM), 다중 반응 모니터링(Multiple Reaction Monitoring, MRM) 일 수 있다.

본원에 따른 일 구현 예에서는 특히 이온을 4개의 전극주로 구성되는 사중 양극에 유도하여 질량/전하(m/z) 비율에 따라 분석하는 방식의 예를 들면 Triple Quadrupole(Q1, Q2, Q3) 질량분석기를 이용한 다중반응모니터링(Multiple reaction monitoring, MRM) 모드가 사용된다. MRM 질량분석법의 원리는 선정된 타겟 단백질들을 모두 펩타이드로 가수분해 시킨 후에, 각 타겟 단백질들에 특이적인 mass to charge (m/z)를 가지는 펩타이드(precursor ion, MS1)를 선택한다. 이 특이적인 펩타이드를 충돌시켰을 때(Quadruple 2, Q2), 발생하는 파편들 중에서 특징적인 m/z를 가지는 특이적 질량을 가진 단편(fragmentation ion, MS2)을 선택한다. MS1/MS2에서 각각 얻어지는 precursor ion/fragment ion의 쌍을 타겟 단백질의 특이적 transition(타겟 단백질의 특이적 질량 지문)이라 명명하며, 이 transition들을 모든 타겟 단백질(300 단백질 이상)에 대해서 측정하면 시료에 있는 모든 타겟 단백질의 양을 동시에 상대 혹은 절대 정량할 수 있다. 상대 혹은 절대 정량을 위해서는 SIS (동위원소 치환된 동일 아미노산 순서의) 펩타이드를 표준 물질로 사용하는데, 측정 시료의 input 표준 물질 (SIS 펩타이드) 양을 알고 있기 때문에 타겟 펩타이드 양을 비례적으로 계산할 수 있는 원리이다. MS2를 통과한 transition은 검출기에서 digital signal로 전환되어 peak chromatogram으로 전환되며 peak 면적을 계산하여 상대 및 절대 정량 분석을 수행할 수 있게 된다. 이러한 원리로 MRM은 목적하는 분석 대상만을 높은 민감도로 선택적으로 검출 및 정량이 가능하다.

MRM 분석에 있어서 분석 대상 펩타이드는 분석 대상의 전체 단백질 서열 중, MRM 분석에 사용되는 일부 서열로, 단백질의 전체 서열 중 일정 조건 예를 들면 분석 대상 단백질에 대한 대표성, 변형가능 여부, MRM 분석에 적합한 길이 등과 같은 조건을 만족하는 최적인 대상 펩타이드가 선정될 수 있다. 예를 들면 아미노산의 길이가 6 - 30개의 길이를 가지는 펩타이드를 선별한다. 상기 범위보다 너무 길이가 짧으면 선택성이 떨어지고, 너무 길면 민감도가 떨어지게 된다. 아울러 메티오닌, 시스테인, 트립토판은 산화와 같이 화학적 변형이 쉬워, 선정 시에 제외시킨다. 본원에 따른 일 구현예에서 본원에 따른 바이오마커를 MRM으로 분석할 때 사용되는 대상 펩타이드는 표 2에 기재되어 있다.

또한 MRM에서는 대상 펩타이드에 대응하는 내부표준물질이 사용된다. 내부표준물질은 상술한 대상 펩타이드와 동일한 아미노산 서열을 가지지만 내부표준물질을 구성하는 하나 이상의 아미노산 질량이 상기 대상 펩타이드의 아미노산 질량과 상이하다. 하지만 아미노산 서열과 소수성이 서로 동일하여 대상 펩타이드와 같은 retention time에 용출된다. 이를 통해서 대상 펩타이드가 실제 분석 대상 단백질 유래인지 확인될 수 있다.

다른 양태에서 본원은 또한 본원에 개시된 마커 또는 마커의 조합의 각 바이오마커를 검출할 수 있는 물질 또는 시약을 포함하는 췌장암 진단용 바이오마커 패널 또는 조성물 또는 키트에 관한 것이다.

본원에서 검출이란, 정량 및/또는 정성 분석을 포함하는 것으로, 존재, 부존재의 검출 및 발현량 검출을 포함하는 것으로 이러한 방법은 당업계에 공지되어 있으며, 당업자라면 본원의 실시를 위해 적절한 방법을 선택할 수 있을 것이다.

이러한 본원에 따른 마커의 검출은 마커의 기능적 특징 및/또는 항원적 특징에 기반을 둔 것일 수 있다.

일 구현예에서 본원에 따른 마커는 마커의 활성 또는 기능의 검출, 또는 단백질을 코딩하는 핵산, 특히 mRNA 수준 및/또는 단백질 수준에서 특이적으로 상호작용하는 물질을 사용하여 검출될 수 있다.

이런 측면에서 본원에 따른 조성물에 포함되는 검출시약은 본원에 따른 마커를 단백질 또는 핵산 수준에서 다양한 방식으로 정량적 또는 정성적 분석을 통해 검출할 수 있는 시약이다.

본원에 따른 마커의 정량적 및 정성적 분석에는 공지된 단백질 또는 핵산을 정성 또는 정량적으로 검출하는 다양한 방법이 사용될 수 있다.

단백질 수준에서의 정성적 또는 정량적 검출 방법으로는 예를 들면 웨스턴블랏, ELISA, 방사선면역분석, 면역확산법, 면역 전기영동, 조직 면역염색, 면역침전 분석법, 보체 고정 분석법, 용액/현탁액 중에서 표지된 항체와의 결합, 질량분석기 또는 항체를 이용한 단백질어레이 등을 이용한 방법이 사용될 수 있다.

또는 핵산 수준에서의 정성적 또는 정량적 검출 방법으로는 핵산 전사 및 증폭 방법, eTag 시스템, 표지된 비드를 기본으로 하는 시스템, 핵산 어레이와 같은 어레이 시스템 등을 이용한 방법이 사용될 수 있다.

이러한 방법은 공지된 것으로 예를 들면 chip-based capillary electrophoresis: Colyer et al. 1997. J Chromatogr A. 781(1-2):271-6; mass spectroscopy: Petricoin et al. 2002. Lancet 359: 572-77; eTag systems: Chan-Hui et al. 2004. Clinical Immunology 111:162-174; microparticle-enhanced nephelometric immunoassay: Montagne et al. 1992. Eur J Clin Chem Clin Biochem. 30:217-22 등을 참조할 수 있다.

본원에 따른 일 구현예에서는 질량분석법(Mass spectrometry)를 이용하여 마커를 검출할 수 있으며, 이는 검체로부터 단백질 또는 펩타이드를 분리 한 후 예를 들면 본원 실시예에 기재된 방식대로 분석될 수 있으며, 또한 예를 들면 (Kim, et al. 2010 J Proteome Res. 9: 689-99; Anderson, L et al. 2006. Mol Cell Proteomics 5: 573-88.)를 참조할 수 있다. 한 구현예에서는 예를 들면 Triple Quadrupole LC-MS/MS, QTRAP 등을 이용한 다중반응모니터링(Multiple reaction monitoring, MRM) 기술이 사용된다. MRM은 앞서 언급한 것을 참조할 수 있다.

다른 구현예에서는 각 단백질 또는 상기 단백질을 코딩하는 유전자 유래의 mRNA와 특이적으로 결합하는 결합제제 또는 결합제제를 포함하는 어레이가 사용된다.

또 다른 구현예에서는 ELISA(Enzyme Linked Immuno Sorbent Assay), RIA(Radio Immuno Assay) 등과 같은 샌드위치 방식의 면역분석법이 사용될 수 있다. 이러한 방법은 고상의 기질 예를 들면 글라스, 플라스틱(예를 들면 폴리스티렌), 폴리사카라이드, 나일론 또는 나이트로셀룰로스로 제작된 비드, 막, 슬라이드 또는 마이크로타이터플레이트에 결합된 제1 항체에 생물학적 시료를 추가한 후, 직접 또는 간접 검출이 가능한 표지물질 예를 들면 ³H 또는 ¹²⁵I와 같은 방사선 물질, 형광물질, 화학발광물질, 햅텐, 바이오틴, 디그옥시제닌 등으로 표지되거나 또는 기질과의 작용을 통해 발색 또는 발광이 가능한 호스래디쉬 퍼옥시다제, 알칼라인 포스파타제, 말레이트 데하이드로게나아제와 같은 효소와 컨쥬게이션된 항체와의 결합을 통해 단백질은 정성 또는 정량적으로 검출 할 수 있다.

다른 구현예에서는 항원 항체 결합을 통해 마커를 간단하게 검출할 수 있는 Ouchterlony 플레이트, 웨스턴블랏, Crossed IE, Rocket IE, Fused Rocket IE, Affinity IE와 같은 면역 전기영동(Immuno Electrophoresis)이 사용될 수 있다. 상기 면역분석 또는 면역염색의 방법은 Enzyme Immunoassay, E. T. Maggio, ed., CRC Press, Boca Raton, Florida, 1980; Gaastra, W., Enzyme-linked immunosorbent assay(ELISA), in Methods in Molecular Biology, Vol. 1, Walker, J.M. ed., Humana Press, NJ, 1984 등에 기재되어 있다. 상술한 면역분석 과정에 의한 최종적인 시그널의 세기를 분석하여 즉, 정상 시료와의 시그널 대조를 수행함으로써, 질환 발생 여부를 진단할 수 있다.

이러한 방법에 사용되는 시약 또는 물질은 공지된 것으로서, 예를 들면 상기 마커에 특이적으로 결합하는 항체, 기질, 핵산 또는 펩타이드 앱타머, 또는 상기 마커와 특이적으로 상호작용하는 수용체 또는 리간드 또는 보조인자 등이 사용될 수 있다. 상기 본원의 마커와 특이적으로 상호작용 또는 결합하는 시약 또는 물질은 칩 방식 또는 나노입자(nanoparticle)와 함께 사용될 수 있다.

본원의 마커는 또한 핵산 수준 특히 mRNA 수준에서의 공지된 다양한 방법을 사용하여 정량적 및/또는 정성적으로 검출될 수 있다.

핵산 수준에서의 정성적 또는 정량적 검출 방법으로는 예를 들면 mRNA 수준에서의 검출, 발현량 또는 패턴의 검출을 위해 역전사 중합효소연쇄반응(RT-PCR)/중합효소연쇄반응, 경쟁적 RT-PCR, 실시간 RT-PCR, Nuclease 보호 분석(NPA) 예를 들면 RNase, S1 nuclease 분석, in situ 교잡법, DNA 마이크로어레이 또는 칩 또는 노던블랏 등을 이용한 방식이 사용될 수 있으며, 이러한 분석법은 공지된 것이며, 또한 시중의 키트를 사용하여 수행될 수 있으며, 당업자라면 본원의 실시를 위해 적절한 것을 선택할 수 있을 것이다. 예를 들면 노던블랏은 세포에 존재하는 전사체의 크기를 알 수 있으며, 다양한 프로브를 사용할 수 있는 장점이 있으며, NPA는 다중 마커 분석에 유용하며, in situ 교잡법은 mRNA와 같은 전사체의 세포 또는 조직내 위치 파악에 용이하며, 역전사 중합효소연쇄반응은 적은 량의 시료 검출에 유용하다. 또한 본원에 따른 바이오마커 단백질을 코딩하는 유전자 유래의 mRNA 또는 cRNA와 같은 핵산과 특이적으로 결합하는 결합제제 또는 결합제제를 포함하는 어레이가 사용될 수 있다.

상기 핵산 수준에서의 바이오마커의 검출 방법에 사용되는 시약 또는 물질은 공지된 것으로서, 예를 들면 mRNA의 존재 여부와 그 양을 RT-PCR로 측정하기 위한 방법에서 검출시약으로는 예를 들면 중합효소, 본원 마커의 mRNA에 특이적인 프로브 및/또는 프라이머쌍을 포함한다. “프라이머” 또는 “프로브”는 주형과 상보적으로 결합할 수 있고 역전사효소 또는 DNA 중합효소가 주형의 복제를 개시할 수 있도록 하는 자유 3말단 수산화기(free 3' hydroxyl group)를 가지는 핵산 서열을 의미한다. 본원에 사용되는 상기 검출 시약은 신호검출을 위해 상술한 바와 같은 발색, 발광 또는 형광물질과 같은 것으로 표지될 수 있다. 일구현예에서는 mRNA 검출을 위해 노던블랏 또는 역전사 PCR(중합효소연쇄반응)이 사용된다. 후자의 경우 검체의 RNA를 특히 mRNA를 분리한 후, 이로부터 cDNA를 합성한 후, 특정 프라이머, 또는 프라이머 및 프로브의 조합을 사용하여, 검체 중의 특정 유전자를 검출하는 것으로, 특정 유전자의 존재/부존재 또는 발현량을 결정할 수 있는 방법이다. 이러한 방법은 예를 들면 (Han, H. et al, 2002. Cancer Res. 62: 2890-6)에 기재되어 있다.

본원에 따른 바이오마커 패널 또는 조성물에 포함되는 검출시약은 검출에 사용되는 구체적 방법에 따라 검출을 위해 직접적 또는 샌드위치 형태로 간접적으로 표지될 수 있다. 직접적 표지방법의 경우, 어레이 등에 사용되는 혈청 시료는 Cy3, Cy5와 같은 형광 표지로 표지된다. 샌드위치의 경우, 표지되지 않은 혈청 시료를 먼저 검출시약이 부착된 어레이와 반응시켜 결합시킨 후, 표적 단백질을 표지된 검출 항체와 결합시켜 검출한다. 샌드위치 방식의 경우, 민감도와 특이성을 높일 수 있어, pg/mL 수준까지 검출이 가능하다. 그 외 방사능 물질, 발색물질, 자기성입자 및 고밀도전자입자 등이 표지물질로 사용될 수 있다. 형광 광도는 스캐닝 콘포칼 현미경이 사용될 수 있으며, 예를 들면 Affymetrix, Inc. 또는 Agilent Technologies, Inc 등에서 입수할 수 있다.

본원에 따른 바이오마커 패널 또는 조성물은 추가로 결합분석에 필요한 하나 이상의 부가 성분을 포함할 수 있으며, 예를 들면 결합 버퍼, 시료 준비에 필요한 시약, 혈액채취용 주사기 또는 음성 및/또는 양성대조군을 추가로 포함할 수 있다.

상술한 바와 같은 다양한 검출시약을 포함하는 본원에 따른 바이오마커 패널 또는 조성물은 분석양태에 따라 ELISA 분석용, 딥스틱 래피드 키트(dip stick rapid kit) 분석용, MRM 분석용 키트, 마이크로어레이용, 유전자증폭용, 또는 면역분석용 등으로 제공될 수 있으며, 분석 양태에 맞추어 적절한 검출시약을 선별할 수 있을 것이다.

일 구현예에서는 ELISA 또는 딥스틱 래피드 키트가 사용되며, 이 경우 본원에 따른 하나 이상의 마커를 인식하는 항체가 기질, 예를 들면 다중웰 플레이트의 웰 또는 유리 슬라이드의 표면 또는 나이트로셀룰로스에 부착되어 제공될 수 있다. 딥스틱의 경우, POCT(Point of Care Test) 분야에서 널리 이용되는 기술로, 본원에 따른 바이오마커를 인식하는 하나 이상의 항체가 나이트로셀룰로스와 같은 기질에 결합되어 있고, 이를 혈청과 같은 시료와 접촉시 예를 들면 딥스틱의 일 말단을 혈청시료에 담그면, 시료가 모세관 현상에 의해 기질을 이동하여, 기질 중의 항체와 결합시 발색하는 방식으로, 마커를 검출하는 것이다.

다른 구현예에서는 펩타이드를 근간으로 하는 MRM 키트가 제공되며, MRM 방식에 대하여는 앞서 설명한 바와 같다. MRM 방법은 특정 단백질을 선택적으로 인식하는 펩타이드를 이용하는 것으로, 온도, 습도 등 환경에 민감한 항체를 이용하는 기존의 방법과 비교하여, 보다 안정적으로 생체시료에서 마커를 검출할 수 있다. 예를 들면 펩타이드는 상술한 바와 같이 기재된 것이 사용될 수 있으며, 하나의 마커에 하나 또는 두 개 이상의 펩타이드가 사용될 수 있다.

다른 구현예에서, 마이크로어레이를 포함하는 어레이 또는 칩의 형태로 제공될 수 있다. 유리 또는 나이트로셀룰로스와 같은 기질의 표면에 검출시약이 부착될 수 있으며, 어레이 제조 기술은 예를 들면 Schena et al., 1996, Proc Natl Acad Sci USA. 93(20):10614-9; Schena et al., 1995, Science 270(5235):467-70; 및 U.S. Pat. Nos. 5,599,695, 5,556,752 또는 5,631,734를 참조할 수 있다. 어레이에 부착될 수 있는 검출시약은 예를 들면 한 단백질에 특이적 결합이 가능한 항체, 항체단편, 앱타머(aptamer), 아비머(avidity multimer) 또는 펩티도모방체(peptidomimetics)를 포함한다.

다른 양태에서 본원은 바이오마커의 검출시약을 포함하는 췌장암 진단용 키트 또는 시스템에 관한 것이다. 검출 시약 및 이러한 시약이 사용되는 방법은 상술한 바와 같다. 이러한 본원의 마커를 검출할 수 있는 시약은 구획이 되어 있는 용기에 개별적으로 분주되어 존재할 수 있으며, 이러한 의미에서 본원은 또한 본원의 마커 검출시약을 구획되어 포함하는 장치/기구에 관한 것이다. 또한 키트는 사용안내서를 추가로 포함할 수 있다.

다른 양태에서 본원은 췌장암 진단 또는 진단에 필요한 정보를 제공하기 위하여, 인간 또는 인간을 제외한 포유류를 포함하는 대상체로부터 분리된 혈액과 같은 생물학적 시료에서 표 5, 표 8 및 표 9-1 및 9-2 등 본원에 개시된 바이오마커 조합을 포함하는 바이오마커 패널의 발현 수준을 측정하는 단계; 및 상기 측정 결과를 대조군 시료의 해당 마커의 상응하는 측정 결과와 비교하여, 췌장암과 연관시키는 단계를 포함하는, 인비트로에서 췌장암 진단용 바이오마커의 검출 방법에 관한 것이다.

본원에서 “생물학적 시료” 는 인체나 포유동물로부터 얻어지는 모든 고형 또는 액상의 시료, 예컨대, 특정 장기 유래의 조직, 오줌, 타액, 전혈, 혈장 또는 혈청 시료를 포함하나, 이에 제한되지 않는다. 일 구현예에서 본 발명의 마커 단백질은 조직 또는 혈액 시료, 특히 혈액에 포함되어 있다.

본원에 따른 방법에서 대조군은 정상 및/또는 양성 췌장 종양이다.

본원에 따른 방법에서 각 바이오마커 패널은 CA19-9을 추가로 포함한다.

본원에 따른 방법에서 상기 연관시키는 단계에서, 상기 대상체의 측정 결과 그 발현 수준이 상기 대조군에 측정된 발현 수준과 비교하여 증가 또는 감소한 경우, 상기 대상체를 췌장암으로 판단한다. 대조군과 비교한 본원에 따른 바이오마커의 발현의 증가 또는 감소는 본원에 개시된 바를 참조할 수 있다.

본원에 따른 방법에서 대조군은 정상 및/또는 양성 췌장 종양을 갖는 대상체로부터 유래된 시료이다.

본원에 따른 방법에서 상기 발현 수준을 측정 하는 단계에서 상기 각 바이오마커의 발현 수준을 측정하는 방법은 앞서 언급한 것을 참조할 수 있다.

일 구현예에서는 탠덤 질량 분석법, 이온 트랩 질량 분석법, 삼중사극 질량 분석법, 하이브리드 이온 트랩/쿼드러폴 질량 분석법 또는 비행시간 질량 분석법을 포함하는 질량 분석법으로 수행된다. 상기 질량 분석법에 사용되는 모드는 선택 반응 모니터링(Selected Reaction Monitoring, SRM) 또는 다중 반응 모니터링(Multiple Reaction Monitoring, MRM), 특히 MRM이다.

일 구현예에서 MRM 분석이 사용되며, 그 분석에 사용되는 펩타이드는 표 2와 같다.

이하, 본 발명의 이해를 돕기 위해서 실시예를 제시한다. 그러나 하기의 실시예는 본 발명을 보다 쉽게 이해하기 위하여 제공되는 것일 뿐 본 발명이 하기의 실시예에 한정되는 것은 아니다.

실 시 예

실시예 1. 혈액시료 전처리

1-1. 혈장 시료 준비

췌장암을 진단 할 수 있는 효과적인 단백질 바이오 마커를 발굴해 내기 위해 서울아산병원, 국립암센터, 삼성서울병원, 서울대병원, 연세 세브란스 병원 총 5개의 병원에서 췌장암 환자의 혈장 시료를 모았다. 모든 혈장 시료는 EDTA가 코팅된 튜브에 모아졌으며, 분주된 즉시 동결하여 보관하였다. 용혈성의 시료는 제외되었으며, 췌장암 환자의 시료는 수술이나 화학치료법을 받은 환자의 혈장 시료를 채취하였다.

1-2. 혈장 단백질 depletion 과정

혈액 내에 적은 농도로 존재하는 바이오마커 발굴을 위해 각 개별 시료당 40μL의 혈액을 취해 혈액에서 가장 많은 비율로 존재하는 7종 (albumin, IgG, IgA, haptoglobin, transferrin, antitrypsin, fibrinogen)을 제거하는 depletion 과정을 거쳤다. 7개의 High-abundant protein 제거를 통해서, 혈액 내에는 총 단백질의 88-92% 정도가 제거되었고, 나머지 8-12% 단백질만을 이용하여 적은 양으로 존재하는 단백질들의 분석을 진행하였다.

1-3. 혈장 단백질, 펩타이드화 과정

Depletion 과정 후 얻어진 혈장 시료는 농축(w/ 3K filter)한 다음, BCA (Bicinchoninic acid) assay 방식으로 단백질 농도 정량하였다. 200μg 혈장 시료를 취한 다음, 최종 농도 6M urea/20mM DTT 처리 (Tris pH 8.0) 한 다음, 37℃에서 60분 동안 인큐베이션하였다. 최종 농도 50mM IAA 처리 한 다음, 상온에서 30분 동안 인큐베이션하였다. Urea의 농도가 0.6M 이하가 되도록 100mM Tris pH 8.0 처리를 하였다. Trypsin과 혈장 농도 비율이 1:50이 되도록 trypsin 처리 후, 37℃에서 16시간 동안 인큐베이션하였다. Formic acid 용액을 최종 농도 5%가 되도록 처리한 다음, desalting을 수행하였다.

1-4. 혈장 단백질, desalting 과정

OASIS column을 60% ACN / 0.1% formic acid 1mL로 3번 흘려줘서 activation하고, OASIS column을 0.1% formic acid 1mL로 5번 흘려줘서 equilibration을 수행하였다. Peptide 시료를 투입하고, 0.1% formic acid 1mL로 5번 흘려줘서 세척하였다. 40% ACN / 0.1% formic acid 1mL과 60% ACN / 0.1% formic acid 1mL 처리해서 peptide elution을 수행하였다. 1시간 이상 -70℃에서 냉동하고, speed-vac으로 건조하였다. 건조된 peptide 시료는 Sol A buffer (3% ACN / 0.1% formic acid) 50 μL에 녹인 다음, 15,000 rpm에서 60 min 동안 원심분리 하고, 이 중에서 40μl 만 byal에 옮겨서 분석을 수행하였다.

1-5. MRM 분석 과정

도 3을 참조하면, Quadruple 1 (Q1)은 특정 Q1 m/z 만을 통과시킬 수 있는 filter 역할을 수행한다. Q1 filter를 통과한 precursor ion은 Quadruple 2 (collision cell)에서 전기적인 에너지에 의해 fragmentation이 일어나며 product ion으로 분해된다. 이 product ion은 Quadruple 1 (Q1)에서처럼 filter 역할을 수행하는 Quadruple 3 (Q3)를 통해 특정 product ion만이 통과될 수 있다. Quadruple 3 (Q3)를 통과한 ion은 detector에서 digital signal로 전환되어 peak chromatogram으로 보여지게 되며, 이 peak의 면적을 분석하여 상대 및 절대 정량 분석을 수행할 수 있게 된다.

실시예 2. 바이오마커 후보군 선정

2-1. 연구에 사용된 임상 시료

마커 후보군으로 선정된 타겟 단백질들의 질량분석기에서 검출 가능 및 정량성 있는 타겟을 선정하기 위해 Discovery와 verification 단계에서는 서울대병원에서 췌장암 50례, 췌장양성진환 34례, 정상인 50례 총 134례의 시료를 이용하였다. Discovery & Verification 단계에서 선정된 마커 후보 단백질을 가지고 췌장암을 진단 할 수 있는 효과적인 단백질 바이오 마커를 최종 발굴해 내기 위해 서울아산병원, 국립암센터, 삼성서울병원, 서울대병원, 연세 세브란스 병원 총 5개의 병원에서 얻어진 췌장암 환자의 혈장 시료가 사용되었으며 총 개수로는 401개의 시료를 준비하였다. 췌장암 이외 다른 암과의 비교를 위한 샘플 군으로 다른 암종 샘플도 준비하였다. 다른 암종은 유방암 52례, 대장암 45례, 갑상선암 52례 총 149례이다. 췌장의 양성 종양 및 다른 양성 질환인 췌장염 및 담낭염에 대한 샘플도 준비하였으며 개수는 총 109례이다. 정상 환자의 혈장 시료는 서울대병원에서 총 349례를 준비하였다.

2-2. 마커 후보군 선정

췌장암과 관련된 마커 후보군을 선정하기 위하여 먼저 17개의 프로테오믹스 기술을 이용한 췌장암 연구에 관한 논문을 참고하였으며 여기서 총 819 단백질이 마커 후보로 선정되었다. 8개의 공용 Database를 ONCOMINE을 통해 얻었으며, 8,145개의 유전자가 후보로 검색되었다. Metacore Pathway Studio에서 753개의 유전자가 Screen 되었으며, 3편의 DEG(differential expressed gene) 논문을 통해 총 2226개의 유전자가 확인되었다. 상기 언급된 Data-mining 과정을 거쳐 총 508개의 단백질을 마커 후보군으로 설정 하였다. Tissue Microarray (이하TMA)를 이용한 마커 후보군 선정 과정도 실시 하였다. 췌장암 104례, IPMN 50례, 정상 17례를 이용하여 TMA를 실시하였으며, 췌장암에서 특이적으로 발현되며, 혈장과 혈청에서 특이적으로 발현되는 mRNA 22,785개가 선정되었으며 단백질 수준으로는 최종적으로 456 단백질이 선정되었다. 22개의 일반적으로 알려진 암 관련 마커 단백질, 14개의 돌연변이 단백질을 포함하여 총 1,000개의 후보군을 췌장암 진단의 마커 후보군으로 선정하였다.

2-3. 검출 가능한 타겟 후보군 선정

1000개의 후보 단백질 중 질량분석기에서 검출되는 후보를 선정하기 위하여 NIST(National Institute of Standards and Technology)의 MS/MS library를 이용하여 필터링 한 결과 907개가 선정되었다. 907개의 단백질 선정시 UniprotKB를 이용하여 각 단백질당 1-20개의 펩타이드가 속하도록 선정하였으며, Skyline 프로그램을 이용하여 각 펩타이드들에 대한 Tranisition을 생성하였다. 펩타이드의 아미노산 개수는 7-24개의 길이로 된 펩타이드를 사용하였다. 실제, 질량분석기 장비로 검출이 가능한 타겟 만을 선정하기 위해서, 정상 6명, 췌장암 6명에서 만들어진 Pooling 시료를 이용하여, MRM 분석을 통해 signal이 제대로 검출되는 펩타이드 만을 선정한 결과, 225개 단백질이 실제 혈장 시료에서 검출되었다.

2-4. Semi-Quantitative MRM 분석 및 최종 마커 후보군 선정

질량분석기에서 검출 가능하다고 선정된 225개의 단백질을 후보군을 대상으로 134개의 췌장암, 정상, 췌장양성질환으로 이루어진 시료를 이용하여 상대정량을 실시하였다(도 4). 정량성 확보를 목적으로 농도를 이미 알고 있는 특정 펩타이드를 사용해서 모든 MRM 분석 시, 해당 펩타이드의 peak area 값으로 표준화하는 작업을 거치게 되는데, 여기에 해당되는 펩타이드를 내부표준물질이라 하고, 이는 방사성동위원소로 표지된 아미노산을 갖고 있는 펩타이드이다. 내부 표준물질인 β-Galactosidae[GDFQFNISR(13C15N)]를 각 시료에 50-fmol씩 Spiking하여 시료를 준비하였으며, MRM 분석으로부터 나온 모든 타겟 펩타이드의 peak area 값을 해당 내부표준물질의 peak area 값으로 표준화하는 작업을 거쳤다.

분석 결과 205 단백질, 316 펩타이드가 정상, 췌장암, 췌장양성질환에서 AUC>0.6 이상의 성능을 나타내며 췌장암의 구분력을 갖는 것으로 나타났다. 이렇게 선정된 205 단백질, 316 펩타이드에서 질량분석기에서 검출 시 시그널의 간선현상이 있는 펩타이드들을 제거하여 최종 176 단백질, 217 펩타이드를 대상으로 SIS(stable-isotope labeled standard) 펩타이드를 합성하였다. 이 합성 SIS 펩타이드는 C-termini의 lysine (13C615N2, 8 Da mas shift)이나 arginine (13C615N4, 10Da mass shift)에 방사성동위원소로 표지된 펩타이드이다. 이 SIS 펩타이드는 혈장 시료에 이미 존재하는 Endogenous(내생) 펩타이드와 질량값이 다르다는 것 외에 모든 특성이 같으며, SIS 펩타이드를 내부 표준 물질로 사용하여 Endogenous 펩타이드와 SIS 펩타이드의 Peak area 비율값을 통해 endogenous 펩타이드의 양을 측정하게 된다.

SIS 펩타이드 합성한 176 단백질, 217 펩타이드를 이용하여 이전과 동일한 시료인 췌장암 50례, 췌장양성진환 34례, 정상인 50례 134명의 시료를 통해 MRM 상대정량 분석을 시행하였다. 각 시료당 3회 반복으로 분석을 진행하였으며, 분석 결과 65개 단백질, 79 펩타이드가 췌장암, 정상, 췌장양성질환에서 차이나게 발현되는 것으로 정량이 되었다. 또한 SIS 펩타이드와 endogenous 펩타이드의 농도비교를 통한 MRM 상대정량을 통해 54 단백질, 68 펩타이드가 정상과 췌장암에서 AUC > 0.6의 구분 성능을 보이며 구분력을 나타내었다. 또한, Peak 시그널의 간섭현상 여부를 판단하기 위해서, Skyline에 내장되어 있는 AuDIT(Automated detection of inaccurate and imprecise transitions) 툴(tool)을 이용하였다. 3반복 분석 결과에 대한 각 타겟 펩타이드들의 CV(coefficient of variation) 값을 기준으로 하였으며 20% 이하로 재현성있고 정량성있게 분석되는 후보군을 선정하였다. 결과적으로 간섭현상이 없이 분석되는 54개 단백질, 68개의 펩타이드를 최종 마커 후보군으로 선정하였다(표 2).

[표 2]

2-5. 다기관 대규모 개별시료 분석

질량분석기를 통해 췌장암 및 정상인의 혈장시료에서 간섭현상 없이 안정적으로 분석 가능한 54개 단백질, 68 펩타이드의 대하여 혈액 검사를 통해 췌장암의 진단 및 예측을 위한 바이오마커를 발굴하기 위하여 다기관, 대규모로 이루어진 시료를 이용하여 검증 분석을 실시하였다. 기관은 서울아산병원, 국립암센터, 삼성서울병원, 서울대병원, 연세 세브란스 병원 총 5개의 병원이며, 총 검증단계에서 사용된 시료의 숫자는 1008개의 혈장 시료를 사용하였다. MRM 분석을 위해 1008개의 시료는 4개의 배치(batch)로 나누었다. 각 배치는 250개의 시료가 배정되었으며, 4가지 서로 다른 시료군들이 비슷한 비율로 속하도록 하였다. 마지막 배치에는 8개를 더하여 258개의 시료로 구성하였다. 또한 분석의 편차를 보정하기 위하여 pooling 시료를 각 배치에 무작위로 배치하여 양성 대조군으로 함께 분석 하였다. 분석에 사용된 장비는 액체크로마토그래피(liquid chromatography)는 애질런트사의 1260-모세관 LC를 사용하고, 펩타이드의 분리를 위해 모세관 RR 0.5 x 150 3.5 um의 컬럼을 사용하였다. 시료는 5㎕를 주입하였고, 유속은 20㎕/분으로 설정하였다. 우선 컬럼을 Sol A(부피 기준으로 95% 증류슈, 5% 아세토니트릴, 0.1% 포름산)으로 10분간 평형화한 후 Sol B(95% 아세토니트릴, 0.1% 포름)를 50분간 3%-35%까지, 10분간 80%까지 Sol B의 비율을 조정하며 마지막 10분동안 5%까지 다시 Sol B의 비율을 낮추는식으로 농도 구배를 가하여 펩타이드를 용출하였다. 분석에 사용된 총 LC 분석 시간은 70min 이다. 질량분석기(Mass spectrometer)로서 애질런트사의 triple quadrupole 6490-QQQ 장비를 이용하여 선정 단백질들 에 대한 트랜지션에 대해 MRM 모드로 모니터링하였다. 배치(Batch) 간 편차를 보정하기 위해 각 시료에 스파이킹(spiking)된 5 fmol 베타-갈락토시다아제 펩타이드(GDFQFNISR[C13N15], 547.3/646.4)도 동시에 모니터링하였다. MRM 분석 순서는 환자 군이 실험자가 확인할 수 없도록 blinding 후 무작위적으로 분석 되었으며, 분석은 시료 당 3번씩 반복 분석했다. 이를 통해서 얻어진 마커 후보군에 대한 peak area 값은 endogenous 펩타이드의 peak area 값을 이와 대응하는 SIS 펩타이드의 peak area 값으로 normalization 하여 Data를 준비하였다. 이 데이터를 머신러닝을 이용한 다중마커패널 개발에 사용하였다.

2-6. 검량선(Reverse calibration Curve)과 MRM-MS의 분석 성능

혈장 시료를 이용하여 MRM-MS의 분석을 진행할 시 분석이 안정적으로 되었다는 것을 평가하기 위해 검량선(Reverse calibration curve)을 통해 선형성(Linearity)를 확인하는 과정을 거쳤다. 혈청시료를 Pooled 하여 제작한 Pooling 시료에 SIS 펩타이드를 1/2의 비율로 연속적으로 희석하여 커브를 그릴 시료를 제작하였다. 검량선 커브를 작성하기 위해 총 11포인트의 시료를 제작하였으며, 각 포인트에서 Spiking 하는 SIS 펩타이드의 농도 값은 1250, 625.0, 312.5, 156.3, 78.1, 39.1, 19.5, 9.77, 4.88, 2.44, 1.22 fmol으로 하였다. 또한 각 포인트는 MRM 분석시 3~4개의 Transition이 포함되도록 하였으며, 분석은 3반복 분석으로 하였다. 분석에서 가장 높은 시그널을 보이며 분석되는 Transition을 정량에 이용하였으며, 가장 낮게 분석되는 transition 시그널은 백그라운드로 사용하였다. 검량선은 선형회귀방식(Linear regression)을 통해 fitting 하였다. 그 결과는 도 6에 기재되어 있다. 검량선을 통해 R² > 0.998 및 CV < 20%를 보이는 가장 낮은 농도의 포인트를 최저 정량 한계(lower limit of quantitation (LLOQ))로 설정하였으며, 혈액시료를 이용하여 MRM 분석시 선형성을 확인함으로써 분석을 안정되게 할 수 있음을 확인하였다.

실시예 3. 바이오마커 패널 구성

3-1. 딥러닝 방법을 이용한 바이오마커 패널 구성

3-1-1. 데이터 전처리

실제 임상 시료에 적용하여 MRM-MS 분석시 재현성이 있게 분석 가능할 수 있는 사항이 중요하기 때문에 3가지의 기준을 통하여 바이오마커 패널 선별전, 마커 후보군의 선정 작업을 실시하였다. 첫 번째로, 3 반복 분석에 대한 CV(coefficient of variation)의 Cutoff 값을 10%로 설정하였다. 이에 따라 26 펩타이드, 22 단백질이 해당 기준을 만족하지 못하며 제외되었다. 두 번째로, 대상 펩타이드 비율 (Endogenous / SIS-peptide ratio)를 이용하였다. 펩타이드 비율이 0.1 이상 10 이하로 상대 정량된 펩타이드를 분석에 이용하였으며, 이때 12 펩타이드, 11 단백질이 제외되었다. 세 번째로, 각 기관 또는 병원이나 분석 batch에 따른 bias인 Confounding Factor를 제거하였으며, 14개 펩타이드. 10개의 단백질이 해당 factor로 간주되어 제거가 되었다. 결과적으로, 34개 펩타이드, 25개의 단백질이 최종 분석에 사용될 타겟 후보군으로 선정되었다.

3-1-2. 바이오마커 패널 개발

딥러닝 기반 다중마커패널 개발에 사용된 시료구성은 표 3에 나타냈다. 췌장암의 진단 마커를 발굴하기 위해 훈련세트 691례, 테스트세트 317례로 구성하였으며, 다중마커패널 개발에 사용된 마커 후보군은 25개 단백질, 34개 펩타이드를 대상으로 하였다.

- 훈련세트: 췌장암 322례(서울아산병원 60례, 국립암센터 102례, 삼성서울병원 82례, 서울대병원 40례, 연세 세브란스 38례), 췌장양성질환 88례(서울 아산병원 33례, 삼성서울병원 26례, 서울대병원 4례, 연세 세브란스 25례), 정상 281례

- 테스트세트: 췌장암 79례(서울아산병원 15례, 국립암센터 26례, 삼성서울병원 19례, 서울대병원 10례, 연세 세브란스 9례), 다른 암종 149례, 췌장양성질환 21례(서울 아산병원 14례, 삼성서울병원 4례, 서울대병원 1례, 연세 세브란스 2례), 정상 68례

[표 3]

췌장암의 진단 마커를 발굴하기 위하여 Case는 췌장암으로 하였으며, Control은 정상 + 췌장양성질환 + 다른 암종으로 구성하였다.

머신러닝 분석법 중 하나인 딥러닝(Deep-Learning) 분석을 통하여 다중마커패널의 구축을 시도하였다. 분석에 사용된 딥러닝 패키지는 H2o (https://www.h2o.ai) 이며, 상기 패키지에서 제공하는 딥러닝 알고리즘 중 하나인 Feed-Forward neural network를 이용하여 다중마커패널의 구축을 시도하였다. 딥러닝을 이용하기 위해서는 기본적으로 활성화 함수(activation function), 은닉층의 수 (Hidden layer), 은닉층 안의 노드 수(node 또는 neuron) 의 결정이 중요하다. 여러 최적화 과정을 거쳐 활성화 함수는 하기 함수식(1) rectified linear unit (ReLU)를 이용하였으며, 은닉층의 수는 총 2개, 각 은닉층의 노드의 숫자는 각각 20개씩으로 설정하였다.

함수식(1)

ReLU (z) = max (0, z) (z=입력 값, 본 발명의 경우 MRM-MS을 통한 Endogenous 펩타이드와 SIS 펩타이드(내부표준물질)의 피크 면적 비율 값).

또한 딥러닝을 적용하여 분석을 진행 할 때에, Epoch(학습반복횟수), 학습방법(learning method), Dropout 등의 파라미터의 최적화 과정이 필요하다. 이 과정 역시 파라미터의 여러 최적화 과정을 거쳐 가장 적절한 파라미터를 적용하였다. Epoch는 400회로 설정하였으며 학습 방법은 ADADELTA로 설정 및 모델의 과적합을 막는 Dropout은 0.5의 비율로 은닉층에 적용을 하였다. 상기에 언급되어 확정된 파라미터들 적용하여 딥러닝을 통해 췌장암과 정상+췌장양성질환+ 다른 암종과의 비교 분석을 통해 췌장암을 구별하는 모델 생성 결과 14개의 펩타이드로 이루어진 다중 마커 패널이 구축되었다. 이 모델의 성능은 표 4에 나타낸것과 같이 훈련 세트에서 AUC 0.9301, 정확도 89.8%, 민감도 81.8%, 특이도 97.2%를 나타내었으며, 시험 세트에서 AUC 0.9427, 정확도 87.7%, 민감도 91.1%, 특이도 86.5%를 나타내었다. 이것은 현재 췌장암의 진단 마커로 쓰이는 CA19-9 (79%의 민감도와 82%의 특이도) 보다 더 나은 성능으로 췌장암을 구별 할 수 있었다. 14개의 펩타이드로 이에 해당하는 대상 13개 마커는 TTHY, ITIH4, CLU, SEPP1, LRG1, KLKB1, C1R, SERPINA5, BTD, IGFBP2, C5, PROS1 및 CFI 이며, 표 5에 상세히 나타냈다.

[표 4]

[표 5]

3-1-3. 딥러닝 네트워크의 최적화 수행

딥러닝을 이용할 시 하이퍼 파라미터(Hyperparmeter)를 최적화하기 위해 최적화 과정을 통한 딥러닝 네트워크가 학습을 진행하게 되며, 최대의 성능을 나타내기 위해 각 하이퍼 파라미터의 최적화 과정을 수행하였다(도 7).

딥러닝에는 사용하는 알고리즘 종류 및 분석 데이터에 따라 최적화해야 하는 하이퍼 파라미터가 달라지며, 본원에서는 딥러닝 적용시 일반적으로 가장 중요하게 사용되는 9가지 하이퍼 파라미터들에 대하여 최적화를 진행하였다(도 8).

(1) 활성화 함수(Activation Function)

활성화 함수는 딥러닝에서 흔히 말하는 여러 개의 은닉층(hidden Layer)에 존재하는 함수로 이 함수를 통해 이전 층에서 다음 층으로 연산 된 값이 전달 되게 되며, 이 활성화 함수를 사용함으로써 딥러닝의 비선형적인(non-linear) 특징을 가지게 된다. 현재 딥러닝에서 주로 사용되는 활성화 함수는 하이퍼볼릭 탄젠트(tanh), 렐루(ReLU), 맥스아웃(Maxout) 등이 있으며, 본 연구에서는 이 3가지 활성화 함수에 대해 모두 테스트를 진행하였다. 나머지 하이퍼 파라미터는 모두 동일하게 하고 활성화 함수만을 변경해서 테스트 결과 렐루(ReLU)를 활성화 함수로 사용한 네트워크에서 Training Set AUC: 0.909, Test Set AUC: 0.9453을 나타내며 가장 좋은 성능을 나타냈다.

(2) 은닉층, 노드 및 신경망(Node and Layer)

딥러닝 네트워크는 입력층(input layer)과 출력층(output layer) 사이에 여러 개의 은닉층(hidden layer)들로 이루어진 인공 신경망으로 구성되어 있으며, 각 층에는 입력 값들을 받는 여러 개의 노드(node)로 구성된다. 이 층의 개수와 노드의 개수를 최적화 하는 과정 또한 필요함으로, 층의 개수와 각 층에서 노드의 수를 100, 200, 50-50,100-100, 35-35-35, 70-70-70, 25-25-25-25, 50-50-50-50 등의 경우의 수를 나누어 최적화 과정을 수행하였다. 이 단계에서도 앞에서와 동일하게 노드와 은닉층의 개수만을 변경해 가며 최적화 결과 2개의 은닉층(Hidden Layer)과 20개의 노드(Node)로 구성된 네트워크에서 Training Set AUC: 0.909, Test Set AUC: 0.9453을 나타내며 가장 좋은 성능을 나타냈다.

(3) 학습방법 또는 옵티마이저(Optimizer)

딥러닝 네트워크의 각 노드에 활성화 함수가 가지게 될 가중치(weight)값을 정하는 과정을 '학습한다' 하며, 이 학습을 빠르고 안정적으로 하여 최적화를 시켜주는 하이퍼 파라미터가 옵티마이저(Optimizer)이다. 경사하강법, 모멘텀 등의 옵티마이저가 존재하며 본 연구에서는 H2O 딥러닝 패키지에서 제공하는 ADADELTA라는 옵티마이저를 적용하였다. ADADELTA 옵티마이저는 로(Rho)와 입실론(Epsilon) 두가지 파라미터가 존재하며 로는 학습의 속도를 입실론은 학습의 감소 속도를 결정하는 파라미터이다. 로는 0.9 - 0.999의 범위로, 입실론은 1E-4 - 1E-10의 범위로 테스트를 진행하였다. 최적화 결과로는 0.990, 입실론은 1E-8 일 때, Training Set AUC: 0.947, Test Set AUC: 0.9252을 나타내며 가장 좋은 성능을 나타냈다.

(4) 에폭(Epoch)

에폭은 훈련 세트 데이터가 전체 딥 러닝 네트워크를 한번 통과하는 횟수를 말하는 것으로, 즉 훈련 세트의 데이터가 전체 딥러닝 네트워크를 한번 학습하는 효과를 나타낸다. 이 횟수에 따라 학습의 정도가 달라지며 10,50,100,200,300,500, 1000의 경우로 학습시켜 최대의 성능을 나타내는 학습 횟수를 결정하였다. 또한 일정 수준 이상의 학습 횟수를 진행 할 시 더 이상의 성능 증가 없이 포화되거나 감소하는 현상이 발생하며, 또 너무 많은 학습 횟수를 사용 시, 학습에 많은 시간이 소요 되게 되므로, 알맞은 훈련 세트에 대한 학습 횟수의 결정이 중요하다. 에폭의 최적화 결과 400 에폭일 때, Training Set AUC: 0.909, Test Set AUC: 0.9453을 나타내며 가장 좋은 성능을 나타냈다.

(5) L1 및 L2 정규화

L1 및 L2 정규화는 딥러닝에서 훈련 세트의 학습 시 과적합(overfitting)을 막기 위한 것이며, 사용되는 훈련세트 데이터 특성에 따라 알맞은 수치로 지정해야 한다. L1 정규화는 불필요한 변수에 대응하는 가중치들을 0으로 만들어 해당 변수들을 모델이 무시하도록 만들며, L2 정규화는 아주 큰 값이나 작은 값을 가지는 이상치 값의 가중치에 대해 0에 가까운 값으로 만든다. 즉, 어느 한 특정 변수에 가중치를 집중시켜 다른 중요한 변수의 영향력이 사라지고, 가중치가 큰 특정 변수에만 의존하게 되면 모델의 일반화 능력은 떨어지게 됨으로, L1, L2 정규화를 통해 특정 변수에 가중치가 집중 되지 않도록 한다.

L1 및 L2 모두 일반적으로 많이 쓰이는 0, 1E-4, 1E-5 의 세 가지 값에 대해 테스트를 진행하였으며, L1은 0, L2는 1E-5일 때 Training Set AUC: 0.9301, Test Set AUC: 0.9472을 나타내며 가장 좋은 성능을 나타냈다. 결과적으로 L1 정규화는 적용을 안했으며, L2 정규화만 적용하였다.

(6) 드롭아웃(Dropout)

드롭아웃 또한 딥러닝에서 학습의 과적합(Overfitting)을 막기 위해 고안된 방법으로, 반복되는 학습 과정에서 임의로 선택된 노드 일부를 학습에서 배제시키는 방법이다. 수많은 모델을 평균한 효과가 있어 학습 시간의 감소와 네트워크 성능 향상, 배제시킬 노드의 비율을 설정할 수 있다. H2O는 입력층(Input Layer)과 은닉층(Hidden Layer)의 드롭아웃 비율을 각각 설정할 수 있으며, 0 부터 0.5의 범위로 0.05씩 비율을 올려가며 최적화를 진행하였다. 최적화 결과 입력층은 0, 은닉층은 0.5 일 때 Training Set AUC: 0.9301, Test Set AUC: 0.9472을 나타내며 가장 좋은 성능을 나타냈다.

(7) 1회 학습 시 샘플 숫자(Training samples per iteration)

1회 학습 시 샘플의 숫자 항목은 전체 딥러닝 네트워크를 한번 통과 할시 몇 개의 샘플을 입력으로 사용할 지에 대한 하이퍼 파라미터이다. 0, -1, -2 총 세가지 값으로 테스트를 진행 하였으며, -2에서 가장 좋은 성능을 나타냈다.

(8) Max w2

Max w2는 가중치 값의 최대 상한을 정해 놓는 것으로 가중치 값이 너무 커지는 것을 방지하는 역할을 한하는 것으로, 0부터 10까지 테스트를 진행 하였으며, 10일 때 가장 좋은 성능을 나타냈다. 총 9가지의 하이퍼 파라미터에 대한 최적화를 진행하였으며, 최종적으로 활성화 함수는 렐루(Relu), 20-20의 노드와 은닉층의 개수, 옵티마이저는 ADADELTA, 에폭은 400, L1은0, L2는 1E-5, 은닉층의 드롭아웃 0.5, 1회 학습 시 샘플 숫자 값은 -2, 마지막 Max w2는 10으로 하이퍼 파라미터의 최적화를 완료하였으며 그 결과는 도 9에 기재되어 있다.

3-2. SVM 방법을 이용한 바이오마커 패널 구성

3-2-1. 데이터 전처리

전처리 과정의 첫 번째로 MRM-MS로 정량분석한 68개 펩타이드 중 MRM-MS 분석의 재현성(reproducibility)을 확보하기 위하여 Peak Intensity가 1000 이상으로 측정된 마커들만을 선정하는 작업을 수행하였다.

MRM-MS Raw 분석 데이터를 Skyline software를 통해 각 시료별 단백체 마커 별 측정 Intensity를 확인하여 총 11개의 펩타이드가 peak Intensity 1000 이하로 측정된 것을 확인하였으며, 해당 마커를 다중마커패널을 개발한 단백체 마커 후보군에서 제외하였다. 최종적으로 57개의 펩타이드를 통해 다중마커패널 개발 진행하였다. 두 번째 전처리 과정은 다기관에서 얻어진 대규모 혈액 시료의 정량 분석 데이터에 각 단백체 마커 후보별 발현 분포를 맞춰주는 데이터 변환(Data transformation) 작업을 수행하였다. 단백체 마커 후보들의 발현 분포가 정규분포에 가까운 형태로 분포하기 위하여 총 5가지의 데이터 변환 방식을 적용하였다: → Raw, Log (x+1), Log (x+10-10), Square, Square root. 데이터를 5가지 변환 방식으로 변환 후 왜도(Skewness) 값을 각 마커에 대해 계산하여 단백체 마커 후보들의 발현 분포를 확인하였다. 단백체 마커 후보들이 췌장암과 정상 및 췌장 양성 질환에서 서로 다르게 발현할 가능성이 있으므로, 췌장암군과 정상과 췌장 양성 질환을 합한 대조군에 대해 각각 왜도 값을 계산하였다. 펩타이드 57개 및 CA 19-9을 합한 총 58개의 마커 후보에 대해 데이터 변환 후 왜도 값을 계산 시 최대 29.89에서 최소 0.18의 왜도를 갖는 것을 확인하였다. 췌장암군과 대조군의 왜도를 각각 구한 후, 각군 왜도의 절대값의 합이 가장 작게 나오는 데이터 변환법을 최종적으로 선정하여 데이터 변환을 수행. 데이터 변환의 최종 선정 결과 Log (x+1) 22개, Log (x+10-10) 11개, Square root 20개, Raw 5개. 데이터 변환을 진행 후 각 마커들의 왜도 값은 최소 0.1에서 최대 1.9로 58개의 모든 마커들이 변환 전 보다 정규분포의 형태에 가까워짐을 확인하였다.

[표 6]

3-2-2. 바이오마커 패널 개발

SVM 기반 다중마커패널 개발에 사용된 시료구성은 표 7에 나타냈다. 데이터 전처리(Preprocessing)를 완료한 데이터를 이용하여 췌장암 진단 다중마커패널 개발 수행하였다. 아산병원 기관의 시료를 제외한 총 688개의 시료를 이용하여 다중마커패널을 개발하기 위한 훈련 세트와 테스트 세트를 구성하였다. 훈련세트는 551개의 시료(환자군 261례, 대조군 290례), 테스트 세트는 137례의 시료(환자군 65례, 대조군 72례)로 구성하였다. 아산병원 기관의 시료는 단일기관 독립 검증 코호트로 구성하였으며 환자군 75례, 대조군 47례로 구성하였다. 최종적으로 1개의 훈련 세트와 2개의 검증 세트를 통해 다중마커패널을 개발 및 검증을 진행하였다.

[표 7]

다중마커패널 개발을 위해 기계 학습(machine learning) 중 하나인 Support Vector Machine (이하 SVM) 알고리즘(R software version 3.6.0)을 이용하여 모델의 개발 및 학습을 진행하였다. 57개의 단백체 마커 후보 중 모델에 학습 될 마커를 선정하기 위하여 10배 교차 검증(10-fold cross validation)을 이용하여 모델 학습 및 마커 선정하였다. 모델 개발 결과 SVM 기반 12개의 단백질로 이루어진 다중마커패널이 개발되었고, 다중마커패널에 속한 단백질의 조합은 다음과 같다: LRG1, PPAP, C5, KLKB1, CLU, IGFBP2, THBS1, IFRD1, SERPINA5, TTHY, ICAM1, 및 VIM과 같으며, 표 8에도 기재되어 있다.

또한 SVM의 파라미터인 cost와 gamma 또한 모델 구축시 최적화를 진행 하였다. 10-fold cross validation을 진행하였으며, gamma는 0에서 2까지, cost는 1에서 100의 범위에서 튜닝을 진행하였으며, 최적화 결과 커널(Kernal): 가우시안 RBF(gaussian radial basis function), gamma는 0.15, cost는 2를 가졌다.

[표 8]

3-2-3. SVM 바이오마커 패널의 성능

SVM 12개 다중마커패널의 진단적 성능 결과는 다음과 같다:

- 훈련세트: AUC 0.993, 민감도 94.6%, 특이도 98.3%, 정확도 96.6%

- 테스트 세트: AUC 0.961, 민감도 92.3%, 특이도 93.1%, 정확도 92.7%

훈련세트와 테스트 세트에서 CA 19-9의 단독 성능 결과는 다음과 같다:

- 훈련 세트: AUC 0.872, 민감도 71.7%, 특이도 98.9%, 정확도 86%

- 테스트 세트: AUC 0.828, 민감도 58.5%, 특이도 97.2%, 정확도 78.8%

다중마커패널과 CA 19-9 단독의 AUC 증가에 대한 통계적인 비교 결과, 훈련세트와 테스트 세트 모두에서 P < 0.01 or < 0.001 (DeLong’s Test)의 유의한 차이를 나타내며 진단적 구분력의 증가를 확인함. 현재 췌장암 진단의 혈액 마커로 쓰이고 있는 CA 19-9과의 보완적 마커로서의 특성을 알아보기 위하여 개발된 다중마커패널과 CA19-9을 조합하여 모델을 만든 후, 훈련세트 및 테스트 세트에서 검증 작업을 동일하게 수행하였다.

SVM기반 다중마커패널과 CA 19-9이 조합된 모델의 성능 결과는 다음과 같다:

- 훈련 세트: AUC 0.996, 민감도 96.9%, 특이도 99.6%, 정확도 98.4%

- 테스트 세트: AUC 0.983, 민감도 86.2%, 특이도 97.2%, 정확도 92%

다중마커패널과 CA 19-9의 조합된 모델의 AUC 증가에 대한 통계적인 비교 결과, 훈련세트와 테스트 세트 모두에서 P < 0.001 (DeLong’s Test)의 유의한 차이를 나타내며 진단적 구분력의 증가를 확인하였다.

독립 검증 세트에서 다중마커패널의 진단적 성능 검증

다중마커패널의 일반성 및 신뢰성을 높이며, 서로 다른 코호트에 적용 가능한 임상적 유용성을 확보하기 위해 단일 기관 독립 검증 세트(independent validation set)에서 진단적 성능의 평가를 진행하였다. 독립 검증 세트는 아산병원에서 수집된 시료로 구성되어 있으며, 환자군 75례, 대조군 47례 총 122례로 구성되었다.

독립 검증 세트에서 다중마커패널 성능 평가 결과는 다음과 같다.

- AUC 0.945, 민감 94.7%, 특이도 80.9%, 정확도 89.3%.

독립 검증 세트에서 CA 19-9 단독의 성능 평가 결과는 다음과 같다.

- AUC 0.771, 민감도 61.3%, 특이도 95.7%, 정확도 75%.

독립 검증 세트에서 다중마커패널과 CA 19-9 단독의 AUC 증가에 대한 통계적인 비교 결과, P < 0.001 (DeLong’s Test)의 유의한 차이를 나타내며 진단적 구분력의 증가를 확인하였다.

다중마커패널과 CA 19-9의 조합 모델을 독립 검증 세트에서 평가 시 결가는 다음과 같다.

- AUC 0.96, 민감도 96%, 특이도 85.1%, 정확도 91.8%.

CA 19-9 단독과의 AUC 차이에 대한 통계적 비교 결과 P < 0.001 (DeLong’s Test)의 유의한 차이를 나타내며 진단적 구분력의 증가를 확인하였다.

서브그룹에서 다중마커패널의 진단적 성능 검증

기존 췌장암 진단 마커인 CA 19-9는 췌장암 이외에 다른 악성종양인 간암, 대장암, 폐암 등에서도 증가한다는 연구 결과가 존재한다. 따라서 이러한 CA 19-9의 비특이적 발현은 췌장암 진단 시 민감도의 감소로 나타난다. 다중마커패널의 특이성을 확보와 CA 19-9의 한계에 대한 보완적 특성을 알아보기 위해 서브그룹을 구성하여 다중마커패널의 성능을 평가하였다. 서브그룹은 총 2가지의 추가 코호트를 구성하였다.

- 추가 코호트 1: 췌장암 50례, 다른 암종 149례

- 추가 코호트 2: 췌장암 50례, 다른 암종 149례, 정상 57례

- 환자군: 췌장암, 대조군: 다른 암종 or 다른 암종 + 정상

다중마커패널의 2개의 서브그룹에서 평가 결과는 다음과 같다.

- 추가 코호트 1: AUC 0.936, 민감도 94%, 특이도 62.4% 정확도 70.3%

- 추가 코호트 2: AUC 0.951, 민감도 94%, 특이도 71.8% 정확도 77.1%

다중마커패널과 CA 19-9를 조합한 모델의 2개의 서브그룹에서 평가 결과는 다음과 같다.

- 추가 코호트 1: AUC 0.966, 민감도 96%, 특이도 87.9% 정확도 90%

- 추가 코호트 2: AUC 0.972, 민감도 96%, 특이도 90.29% 정확도 92.3%

CA 19-9 단독에서 2개의 서브그룹에서 평가 결과는 다음과 같다.

- 추가 코호트 1: AUC 0.886, 민감도 76%, 특이도 92.6% 정확도 88.4%

- 추가 코호트 2: AUC 0.894, 민감도 76%, 특이도 93.7% 정확도 91.1%

평가 결과, 다중마커패널과 조합된 모델 모두에서 AUC 0.93이상의 높은 진단적 구분력을 나타냈다. CA 19-9 단독과 다중마커패널의 AUC 값에 대한 통계적 비교분석 진행 시, 다중마커패널 단독에서는 유의한 차이를 나타내지 않았으며, 패널과 CA 19-9이 조합된 모델에서는 P <0.05 (DeLong’s Test)의 유의한 수준의 AUC 증가를 확인하였다.

3-3. 로지스틱 리그레션 방법을 이용한 바이오마커 패널 구성

로지스틱 리그레션 방법을 이용하여 다중마커패널을 추가적으로 구축하였다. 사용된 시료는 총 810례의 MRM-MS 정량 분석 데이터를 이용하였으며, 훈련 세트 649례(질병군:321례, 대조군:328례), 테스트 세트 161례(질병군: 80례, 대조군: 81례)로 구성하였다. 췌장암군을 질병군으로 하였으며, 정상과 췌장 양성 질환을 합하여 대조군으로 설정하였다. 로지스틱 리그레션을 이용한 다중마커패널 개발 시, 마커의 선정 과정은 단계적 선택방법(stepwise selection)을 이용하였으며, 선정 기준은 p-value < 0.05 이하 및 AIC(Akaike information criterion)를 이용하여 마커의 선정 및 모델을 개발하였다. 로지스틱 리그레션으로 모델 개발 결과 총 15개의 모델이 개발되었으며, 15개 모델 모두 AUC > 0.85 이상을 나타내며 우수한 진단적 구분력을 나타내었다. 15개 모델을 구성하는 각 마커는 표 9-1 및 9-2에 정리하였다.

[표 9-1]

[표 9-2]

로지스틱 리그레션 기반 15개 다중마커패널의 각 패널의 성능은 다음과 같다. 아래 각 모델은 마커의 조합을 나타낸다.

- 모델 1: 훈련세트 AUC 0.977, 민감도 90.42%, 특이도 95.86%, 테스트 세트 AUC 0.953, 민감도 84.62%, 특이도 94.44%

- 모델 2: 훈련세트 AUC 0.979, 민감도 90.4%, 특이도 96.2%, 테스트 세트 AUC 0.952, 민감도 81.5%, 특이도 94.4%

- 모델 3: 훈련세트 AUC 0.981, 민감도 94.25%, 특이도 93.44%, 테스트 세트 AUC 0.954, 민감도 87.69%, 특이도 88.89%

- 모델 4: 훈련세트 AUC 0.986, 민감도 93.86%, 특이도 96.2%, 테스트 세트 AUC 0.956, 민감도 84.62%, 특이도 91.67%

- 모델 5: 훈련세트 AUC 0.976, 민감도 93.1%, 특이도 92.4%, 테스트 세트 AUC 0.964, 민감도 95.38%, 특이도 88.89%

- 모델 6: 훈련세트 AUC 0.978, 민감도 93.07%, 특이도 94.15%, 테스트 세트 AUC 0.968, 민감도 90.91%, 특이도 94.37%

- 모델 7: 훈련세트 AUC 0.982, 민감도 94.23%, 특이도 94.16%, 테스트 세트 AUC 0.968, 민감도 90.91%, 특이도 82.96%

- 모델 8: 훈련세트 AUC 0.971, 민감도 90.65%, 특이도 93.9%, 테스트 세트 AUC 0.943, 민감도 90%, 특이도 91.36%

- 모델 9: 훈련세트 AUC 0.974, 민감도 92.21%, 특이도 92.07%, 테스트 세트 AUC 0.946, 민감도 93.75%, 특이도 85.19%

- 모델 10: 훈련세트 AUC 0.919, 민감도 83.17%, 특이도 88.41%, 테스트 세트 AUC 0.901, 민감도 81.25%, 특이도 77.78%

- 모델 11: 훈련세트 AUC 0.92, 민감도 82.55%, 특이도 87.5%, 테스트 세트 AUC 0.908, 민감도 83.75%, 특이도 88.89%

- 모델 12: 훈련세트 AUC 0.918, 민감도 86.91%, 특이도 84.76%, 테스트 세트 AUC 0.922, 민감도 82.5%, 특이도 90.12%

- 모델 13: 훈련세트 AUC 0.921, 민감도 85.67%, 특이도 88.41%, 테스트 세트 AUC 0.875, 민감도 83.75%, 특이도 80.25%

- 모델 14: 훈련세트 AUC 0.898, 민감도 75.07%, 특이도 91.16%, 테스트 세트 AUC 0.855, 민감도 71.25%, 특이도 83.95%

- 모델 15: 훈련세트 AUC 0.899, 민감도 83.49%, 특이도 82.93%, 테스트 세트 AUC 0.858, 민감도 76.25%, 특이도 76.54%

실시예 4. 췌장암 진단 마커 19종의 질량분석기를 통한 분석 정보 및 용도

실시예 3에서 Machine Learning(Deep Learning, Support vector machine, Logistic regression)에서 선별된 마커에서 중복을 제외한 마커는 총 68개의 펩타이드이다(표 10-1 내지 10-4 참조).

최종 선정된 19개의 펩타이드의 Aglinet 社의 6400 Series Triple quadrupole 질량분석기를 사용하여 특정 Collision Energy에 따른 각 Transition 분석시 사용된 정보는 다음과 같다. 질량분석기를 이용하여 분석을 진행 할 시 Collision Energy는 6400 Series에서 정해진 기본값에서 ± 2V 씩 5-Point씩 증감을 통하여 분석된 Transition Intensity를 분석에 이용하였다. Aglinet 社의 6400 Series Triple quadrupole을 이용하여 분석을 진행할 시 재현성 있고 선형성을 보이며, 안정적으로 분석 가능한 Top-3 Transition을 선정하기 위해 추가적으로 검량선(Calibration Curve) 분석을 실시하였다. 검량선(Calibration Curve) 분석 시 18-Point로 하여 분석을 진행 하였으며, 각 포인트에서 SIS-peptide를 spiking 한 양은 다음과 같다: 2000, 1000, 500, 250, 125, 62.5, 31.25, 15.63, 7.81, 3.91, 1.95, 0.98, 0.49, 0.24, 0.12, 0.06, 0.03, 0.02 fmol. 68개의 펩타이드의 Top-3 transition 선정 기준은 낮은 농도 포인트로 갈수록 Intensity 감소 추세가 가파르고, dynamic range가 넓으며, interference가 낮은 농도에서 적은 것 또한 ion이 길고, y-ion 우선을 고려하여 Top-3 Transition 선정을 진행하였다.

재현성 있고 안정적으로 분석이 가능한 68개 펩타이드의 Top-3 Transition, Collision Energy 정보는 다음과 같다: AADDTWEPFASGK - y9, y8, y7 (22.6); AGFSWIEVTFK - y8, y6, b9 (20.9); ASSIIDELFQDR - y8, y7, y6 (22.6); CINQLLCK - y7, y6, b5 (17.3); DLLLPQPDLR - y8, y7, y6 (19.3); DSVTGTLPK -y7, y6, y5 (15.2); DYFIATCK - y6, y5, b4 (16.8); GFQQLLQELNQPR - y7, y6, y5 (14.1); ILSGDPYCEK - y8, y7, y5(19.3); LIQGAPTIR - y8, y7, y6 (16); LSSGLVTAALYGR - y9, y8, y7 (21.3); NADYSYSVWK - y8, y7, y6 (20.1); NNLELSTPLK - y8, y7, y6 (18.5); VFSLQWGEVK - y9, y8, y6(19.5); GLIDLTLDK - b2, y2, y7 (17.4); NIQSLEVIGK - b2, y8, y2 (19.4); ILLAELEQLK - b2, y8, y6 (20.7); LLGIETPLPK - y8, y6, b3 (19.1); TIVTTLQDSIR - b2, y8, y9 (22.0); ALAPEYAK - y6, y5, y3 (15.2); ALAQCAPPPAVCAELVR - y6, y5, b6 (15.5); ALLAFQESK - y7, y6, b2 (17.7); ASCLYGQLPK - y5, y2, b3 (20.1); CDENILWLDYK - y5, y4, y2 (26); CDLISIPK - y4, y2, b2 (16.7); CMPTFQFFK - y7, y5, y2 (21.3); DGYLFQLLR - y6, y5, b3 (19.9); DPTFIPAPIQAK - y7, b4, b5 (23); DTEVLLVGLEPGTR - y7, y4, b6 (26.6); EFGNTLEDK - y7, y4, y2 (18.6); ELLALIQLER - y7, y6, y5 (21.2); EPAVLELEGK - y6, y4, y2 (19.1); EWFSETFQK - y7, y6, y4 (21.2); FAVLQENVAWGNGR - y6, y5, y4 (27.7); FLEQECNVLPLK - y7, y4, y3 (26.4); FQASVATPR - y7, y6, b2 (17.2); GDIGETGVPGAEGPR - y9, y7, b8 (25); GDSVSDSGSDALR - y9, y7, y6 (22.4); GEWVALNPLR - y6, y5, y4 (20.4); GFLLLASLR - y5, y4, b4 (17.4); GGSASTWLTAFALR - y8, y7, y6 (25.5); GLPGEVLGAQPGPR - y6, y5, y4 (23.9); GLTSVINQK - y7, y4, b2 (16.9); ICLDPDAPR - y7, y6, b2 (18.6); IEDGFSLK - y7, y6, b2 (16); IQPSGGTNINEALLR - y6, y4, b2 (12.3); IVVVTAGVR - y7, y6, b2 (16.1); LALDNGGLAR - y8, y6, b2 (17.6); LSFQEFLK - y7, y6, b2 (17.8); LSLEIEQLELQR - y7, y5, y4 (26.1); LSNNALSGLPQGVFGK - y10, y7, y3 (28.4); NVLVTLYER - y7, b2, b3 (19.5); QGIQFYTQLK - y5, y4, y2 (21.7); SPAYTLVWTR - y6, y5, y3 (21.1); TGESVEFVCK - y5, y2, b3 (20.4); TLLSNLEEAK - y8, y7, b2 (19.7); TLNICEVGTIR - y7, y6, y4 (22.6); TNFDNDIALVR - y8, y4, b2 (22.6); TWYPEVPK - y5, y2, b2 (18); VAAGAFQGLR - y8, y7, b2 (17.4); VAEGTQVLELPFK - y6, y4, y3 (25.3); VCPFAGILENGAVR - y12, y9, b2 (26.6); VLDVNDNAPK - y8, y6, b2 (19.1); VLFYVDSEK - y7, y6, b2 (19.4); VSTLPAITLK - y7, b2, b3 (18.4); VTGVVLFR - y6, y4, b2 (15.7); VTLNGVPAQPLGPR - y8, y5, b6 (25.1); YGQPLPGYTTK - y8, y3, b3 (21.7);

췌장암 진단 마커의 Top-3 Transition, Collision Energy 정보는 표 10-1 내지 표 10-4에 나타냈다.

[표 10-1]

[표 10-2]

[표 10-3]

[표 10-4]

이상에서 본원의 예시적인 실시예에 대하여 상세하게 설명하였지만 본원의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본원의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본원의 권리범위에 속하는 것이다.

본 발명에서 사용되는 모든 기술용어는, 달리 정의되지 않는 이상, 본 발명의 관련 분야에서 통상의 당업자가 일반적으로 이해하는 바와 같은 의미로 사용된다. 본 명세서에 참고문헌으로 기재되는 모든 간행물의 내용은 본 발명에 도입된다.

Claims

하기 표로부터 선택되는 두 개 이상 마커 조합의 발현 수준 측정용 물질을 포함하는 췌장암 진단용 바이오마커 패널로, 상기 마커의 조합은 하기로 구성되는 군으로부터 선택되는 하나 이상인, 췌장암 진단용 바이오마커 패널:

TTHY, ITIH4, CLU, SEPP1, LRG1, KLKB1, C1R, SERPINA5, BTD, IGFBP2, C5, PROS1 및 CFI;
LRG1, PPAP, C5, KLKB1, CLU, IGFBP2, THBS1, IFRD1, SERPINA5, TTHY, ICAM1, 및 VIM;
CLU, C5, KLKB1, PPBP, IFRD1, IGFBP2, ICAM1, C4BPA, PTPRJ, ECM1, VIM, C4BPB, SERPINA5 및 TTHY;
CLU, C5, KLKB1, PPBP, ICAM1, IFRD1, IGFBP2, VIM, PTPRJ, ECM1, GSTP1, C4BPA, C4BPB, SERPINA5, TTHY, CPN2 및 APOH;
THBS1, IGFBP3, C5, CLU, IGFBP2, ECM1, ICAM1, SERPINC1, CFI, ADIPO, PTPRJ, KLKB1, C6, PPBP, 및 C4BPA;
TTHY, ITIH4, C4BPB, CLU, SEPP1, KLKB1, C1R, PTPRJ, ECM1, ADIPO, SERPINA5, VIM, ICAM1, IGFBP2, C4BPA, C5, PPBP, THBS1, C1S, C6, SERPINC1, APOH, 및 IGFBP3;
THBS1, IGFBP2, C5, CLU, ECM1, ICAM1, TTHY, C4BPA, IFRD1, KLKB1, C1R 및 C4BPB;
THBS1, IGFBP2, IGFBP3, C5, CLU, ECM1, ICAM1, TTHY, C4BPA, C7, SERPINC1, PPBP, SERPINA5, VIM 및 LDHB;
TTHY, C4BPB, CLU, C1R, ECM1, SERPINA5, LDHB, COL4A2, SERPINC1, VIM, ICAM1, IGFBP2, C4BPA, C5, PPBP, C1S, LRG1, APOH, C7 및 IGFBP3;
THBS1, HSPG2, TTHY, IFRD1, IGFBP2, ECM1, ICAM1, SFTPB, SPARC, C4BPA, KLKB1, SERPINA5, C5 및 COL4A2;
TTHY, KLKB1, PTPRJ, ECM1, SFTPB, SERPINA5, COL4A2, ITIH2, ICAM1, IGFBP2, CPN2, C4BPA, C5, SPARC, HSPG2 및 THBS1;
PPBP, HRG, PKM2, LRG1, AGT, ICAM1, PDCD4, C7, C5, ITIH4, CTSD, IGFBP3, C4BPA, LDHB 및 APOC1;
PKM2, HRG, AGT, APOC1, PDCD4, THBS1, C5, LDHB, PPBP, ITIH4, CFH, C4BPA, C1S, LRG1, C7, ICAM1, IGFBP3, CTSD 및 SOD3;
PKM2, TXN, HRG, AGT, APOC1, CFH, PDCD4, THBS1, C5, LDHB, PPBP, ITIH4, FSTL1, C4BPA, C1S, LRG1, C7, ICAM1, IGFBP3 및 CTSD;
PPBP, HRG, LRG1, PDCD4, AGT, MBL2, PKM2, ICAM1, THBS1, C5, ITIH4, C7, APOC1 및 CFH;
LRG1, SEPP1, IGFBP3, CLU, SERPINC1, C1R, P4HB, CDH11, FCGBP, CPN2 및 BTD; 및
P4HB, CORO1C, FCGBP, MMSA, SERPINC1, SEPP1, LRG1, C1R, BTD, CPN2, IGFBP3, CLU 및 CAP1.
제 1 항에 있어서,
상기 바이오마커의 조합은 CA19-9을 추가로 포함하는 것인, 췌장암 진단용 바이오마커 패널.
제 1 항 또는 제 2 항에 있어서,
상기 측정용 물질은 상기 바이오마커의 발현 수준을 단백질 또는 핵산 수준에서 검출할 수 있는 시약으로,
상기 단백질 수준 검출 시약은 웨스턴블랏, ELISA, 방사선면역분석, 면역확산법, 면역 전기영동, 조직 면역염색, 면역침전 분석법, 보체 고정 분석법, FACS, 질량분석법 또는 단백질 마이크로어레이용 시약이고,
상기 핵산 수준 검출 시약은 중합효소연쇄반응, 역전사 중합효소연쇄반응, 경쟁적 중합효소연쇄반응, Nuclease 보호 분석(RNase, S1 nuclease assay), in situ 교잡법, 핵산 마이크로어레이 또는 노던블랏에 사용되는 시약인, 췌장암 진단용 바이오마커 패널.
제 3 항에 있어서,
상기 질량 분석법이 탠덤 질량 분석법, 이온 트랩 질량 분석법, 삼중사극 질량 분석법, 하이브리드 이온 트랩/쿼드러폴 질량 분석법 또는 비행시간 질량 분석법을 포함하는 것인, 췌장암 진단용 바이오마커 패널.
제 4 항에 있어서,
상기 질량 분석법에 사용되는 모드는 선택 반응 모니터링(Selected Reaction Monitoring, SRM) 또는 다중 반응 모니터링(Multiple Reaction Monitoring, MRM)인 것인, 췌장암 진단용 바이오마커 패널.
제 5 항에 있어서,
상기 질량 분석법 모드는 MRM이고, 상기 MRM에 분석에 사용되는 각 단백질 별 펩타이드는 다음 표와 같은 것인, 췌장암 진단용 바이오마커 패널.
췌장암 진단에 필요한 정보를 제공하기 위하여,
대상체로부터 분리된 혈액으로부터 제 1 항에 따른 하나 이상의 바이오마커 패널의 각 바이오마커의 발현 수준을 측정하는 단계; 및
상기 측정 결과를 대조군 시료의 해당 마커의 상응하는 측정 결과와 비교하여, 췌장암과 연관시키는 단계를 포함하는, 인비트로에서 췌장암 진단용 바이오마커의 검출 방법.
제 7 항에 있어서,
상기 각 바이오마커의 조합은 CA19-9을 추가로 포함하는 것인, 인비트로에서 췌장암 진단용 바이오마커의 검출 방법.
제 7 항 또는 제 8 항에 있어서,
상기 연관시키는 단계에서, 상기 대상체의 측정 결과 그 발현 수준이 상기 대조군에 측정된 발현 수준과 비교하여 증가 또는 감소하는 경우, 상기 대상체를 췌장암으로 판단하는 것을 추가로 포함하며,
상기 증가하는 마커는 ADIPO, AGT, BTD, C1R, C1S, C4BPA, C4BPB, C5, C6, CDH11, CFH, CFI, C7, CPN2, CTSD, FCGBP, FSTL1, GSTP1, HSPG2, ICAM1, IFRD1, IGFBP2, ITIH4, LDHB, LRG1, MBL2, MMSA, P4HB, PKM2, PPBP, PROS1, SERPINC1, SOD3, SPARC, THBS1, TXN, 및 VIM 이고,
상기 감소하는 마커는 APOC1, APOH, CAP1, CLU, COL4A2, CORO1C, ECM1, HRG, IGFBP3, SERPINA5, ITIH2, KLKB1, PDCD4, PTPRJ, SEPP1, SFTPB, TTHY인, 인비트로에서 췌장암 진단용 바이오마커의 검출 방법.
제 7 항 또는 제 8 항에 있어서,
상기 발현 수준을 측정 하는 단계에서 상기 각 바이오마커의 발현 수준은 탠덤 질량 분석법, 이온 트랩 질량 분석법, 삼중사극 질량 분석법, 하이브리드 이온 트랩/쿼드러폴 질량 분석법 또는 비행시간 질량 분석법을 포함하는 질량 분석법으로 수행되는 것인, 인비트로에서 췌장암 진단용 바이오마커의 검출 방법.
제 10 항에 있어서,
상기 질량 분석법에 사용되는 모드는 선택 반응 모니터링(Selected Reaction Monitoring, SRM) 또는 다중 반응 모니터링(Multiple Reaction Monitoring, MRM)인 것인, 인비트로에서 췌장암 진단용 바이오마커의 검출 방법.
제 11 항에 있어서,
상기 질량 분석법 모드는 MRM이고, 상기 MRM에 분석에 사용되는 펩타이드는 다음 표와 같은 것인, 인비트로에서 췌장암 진단용 바이오마커의 검출 방법:
대상체로부터 분리된 혈액에서 질량분석법을 이용하여, 복수 개 바이오마커의 발현량 데이터를 획득하는 단계로, 상기 복수 개의 바이오마커는 대조군의 발현량과 비교하여 췌장암 환자에서 발현량이 변화된 바이오마커이고, 대조군은 정상 및 양성 췌장종양이고; 및
상기 단계에서 획득된 복수 개 발현량 데이터를 기준으로 췌장암의 진단을 위한 바이오마커 패널 구성을 위한 바이오마커 조합을, 딥러닝, 로지스틱 리그레션 또는 SVM(Support Vector Machine)을 포함하는 머신러닝 방법을 이용하여 선별하는 단계를 포함하는, 췌장암 진단을 위한 바이오마커 패널 구성방법으로,
상기 딥러닝은 H2o 패기지의 Feed-Forward neural network 이며, 이에 사용되는 하이퍼 파라미터는 하기 기준을 만족하고:
활성화 함수 함수식 (1): ReLU (z) = max (0, z);
은닉층(Hidden Layer) 수 및 상기 은닉층의 뉴론 수는 각각 2개 및 20개;
학습방법은 ADADELTA 옵티마이저, 또는 Epoch(학습반복횟수) 400회이고,
과적합을 방지하기 위한, L2 정규화는 1E-5 및 드랍아웃은 0.5;
1회 학습시 샘플 숫자는 -2;
Max w2는 10이고;
상기 SVM의 하이퍼 파라미터는 다음 기준을 만족하는 것인,
커널(Kernal): 가우시안 RBF(gaussian radial basis function);
감마(Gamma): 0.15; 및
코스트(cost): 2,
췌장암 진단을 위한 바이오마커 패널 구성방법.
제 13 항에 있어서,
상기 방법은, 상기 딥러닝이 사용되는 경우, 상기 질량분석법을 이용하여 결정된 복수 개 바이오마커의 발현량 데이터 획득 단계 후에, 하기 기준을 만족하는 발현량 데이터는 제외되는 데이터 전처리 단계를 추가로 포함하는, 방법:
하나의 시료에 대한 3회 반복 분석 결과에 대한 CV(coefficient of variation)의 Cutoff 값을 10% 초과;
실험대상 펩타이드/내부표준 (SIS) 펩타이드)의 비가 0.1 내지 10; 및
분석시료 배치별 바이아스인 Confounding Factor에 영향을 받는 펩타이드.
제 13 항에 있어서,
상기 방법은, 상기 로지스틱 리그레션 또는 SVM이 사용되는 경우, 상기 질량분석법을 이용하여 결정된 복수 개 바이오마커의 발현량 데이터 획득 단계 후에,
질량분석의 피크 강도가 1000 이하의 바이오 마커는 제외한 후에, 상기 바이오 마커의 왜도 값이 0.1 내지 1.9의 값을 갖도록 변환을 수행하는 전처리 단계를 추가로 포함하는 것인, 방법.
제 13 항 내지 제 15 항 중 어느 한 항에 있어서,
상기 질량 분석법이 탠덤 질량 분석법, 이온 트랩 질량 분석법, 삼중사극 질량 분석법, 하이브리드 이온 트랩/쿼드러폴 질량 분석법 또는 비행시간 질량 분석법을 포함하는 것인, 방법.
제 16 항에 있어서,
상기 질량 분석법에 사용되는 모드는 선택 반응 모니터링(Selected Reaction Monitoring, SRM) 또는 다중 반응 모니터링(Multiple Reaction Monitoring, MRM)인 것인, 방법.
제 17 항에 있어서,
상기 질량 분석법은 MRM 모드이고,
상기 복수 개 바이오마커 및 질량 분석법에 사용된 각 바이오마커의 펩타이드는 다음 표와 같은 것인, 방법: