KR102380684B1

KR102380684B1 - Ai 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 방법 및 장치

Info

Publication number: KR102380684B1
Application number: KR1020210153084A
Authority: KR
Inventors: 박건욱; 이남용; 김광회; 이상용
Original assignee: 주식회사 셀키
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-04-01

Abstract

AI 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 방법 및 장치가 개시된다. 상기 AI 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 장치는, 적어도 하나의 프로세서(processor); 및 상기 적어도 하나의 프로세서가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함한다. 상기 적어도 하나의 동작은, 외부의 공공 서버, 클라우드 서버, 또는 각종 기관 서버들과 연동하여 각종 암에 걸린 환자 또는 정상인의 혈청을 대상으로 질량분석을 실시하여 얻어지는 질량 스펙트럼들을 포함하는 공공 데이터(Public data) 및 개인 데이터(Private Data)를 획득하는 단계; 미리 지도학습된 인공신경망에 상기 질량 스펙트럼들을 입력하고, 상기 인공신경망의 출력에 기초하여 정상인 대조군과 대응하는 제1 당펩타이드 정량분포와 특정 질환군과 대응하는 제2 당펩타이드 정량분포를 예측하는 단계; 미리 구성된 라이브러리를 참조하여, 상기 제1 당펩타이드 정량분포와 가장 유사한 제1 탄뎀 스펙트럼과 상기 제2 당펩타이드 정량분포와 가장 유사한 제2 탄뎀 스펙트럼을 획득하는 단계; 및 상기 제1 탄뎀 스펙트럼과 상기 제2 탄뎀 스펙트럼을 서로 비교하여 상기 특정 질환군에 따른 질병과 대응하는 바이오마커를 추정하는 단계;를 포함한다.

Description

AI 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 방법 및 장치{METHOD AND APPARATUS FOR DETERMINING CANCER-SPECIFIC BIOMARKERS THROUGH GLYCOPEPTIDE ANALYSIS BASED ON MASS SPECTRUM BASED ON AI}

본 발명은 당펩타이드 분석 기술에 관한 것으로, 더욱 상세하게는 AI 기반으로 질량 스펙트럼에 따른 당펩이타드 분석을 통해 암을 진단할 수 있는 암 특이적 바이오마커를 결정하는 기술에 관한 것이다.

인간의 혈액은 수많은 단백질들의 혼합체이며, 이중 50% 이상이 당단백질이다. 그러나, 당단백질은 당의 다양성과 복잡성때문에 단백체 분석에 비해 정성분석 또는 정량분석이 어렵다. 최근 고분해능 질량분석기의 도입으로 당이나 당단백질의 분석이 빠른 속도로 발전하고 있으나, 이와 같은 방법으로 분석된 결과를 이용하여 당단백질을 동정 및 정량할 수 있는 생물정보처리 기술이 미약하다.

단백질의 당화는 N-연결형과 O-연결형 당화로 구분된다. N-연결형의 당화는 소포체(ER)에서 일어나는 반면, O-연결형의 당화는 ER, 골지체 또는 세포질에서 일어난다. O-연결형 당화는 비-뮤신 타입(non-mucin type)과 뮤신 타입(mucin type)으로 분류되며, 포유류에서 발생하는 O-연결형 당화는 주로 뮤신 타입이다. 뮤신 타입의 당화는 주로 N-아세틸갈락토사민(GalNAc)이 세린 또는 트레오닌에 결합함으로써 시작되며, 돌리콜(dolichol)과 같은 전구체(precursor)의 도움 없이 바로 효소에 의해 일어나기 때문에 복잡하다. 또한, 뮤신 타입의 O-연결형 당단백질은 세포질이나 핵에서 주로 발견된다. 다만, O-연결형 당화는 N-연결형 당화에 비해 상대적으로 연구가 적어 아직까지 많이 알려져 있지 않다.

한편, 이처럼, O-연결형 당펩타이드와 N-연결형 당펩타이드 등과 같이 상대적으로 낮은 감도를 나타내는 당펩타이드는, 질량 스펙트럼 분석시 매우 낮은 함량을 갖고 있기 때문에 특정이 어렵고, 이 때문에 낮은 감도에 대한 당펩타이드의 암 특이적 바이오마커를 발굴하는 것은 매우 어려운 문제로 작용한다.

따라서, 질량 스펙트럼 분석시에 질량이 적은 당펩타이드에 대한 암 특이적 바이오마커를 발굴하기 위한 일환으로 AI를 이용한 질량 스펙트럼 분석을 적용할 필요성이 높지만, 현재 당펩타이드에 대한 분석 정확도를 높일 수 있는 인공신경망 모델 구조에 대한 연구는 미진한 실정이다.

(비특허문헌 1) Forrester S. et al., Cancer Mol. Oncol., 2007, 1(2):216-225 (비특허문헌 2) Salome S. et al., Nature Reviews Cancer, 2015, 15(9):540-550 국내공개특허 제10-2015-0062915호 (2015.06.08)

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, AI 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 방법 및 장치를 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 측면은, AI 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 장치를 제공한다.

상기 AI 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 장치는, 적어도 하나의 프로세서(processor); 및 상기 적어도 하나의 프로세서가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함한다.

상기 적어도 하나의 동작은, 외부의 공공 서버, 클라우드 서버, 또는 각종 기관 서버들과 연동하여 각종 암에 걸린 환자 또는 정상인의 혈청을 대상으로 질량분석을 실시하여 얻어지는 질량 스펙트럼들을 포함하는 공공 데이터(Public data) 및 개인 데이터(Private Data)를 획득하는 단계; 미리 지도학습된 인공신경망에 상기 질량 스펙트럼들을 입력하고, 상기 인공신경망의 출력에 기초하여 정상인 대조군과 대응하는 제1 당펩타이드 정량분포와 특정 질환군과 대응하는 제2 당펩타이드 정량분포를 예측하는 단계; 미리 구성된 라이브러리를 참조하여, 상기 제1 당펩타이드 정량분포와 가장 유사한 제1 탄뎀 스펙트럼과 상기 제2 당펩타이드 정량분포와 가장 유사한 제2 탄뎀 스펙트럼을 획득하는 단계; 및 상기 제1 탄뎀 스펙트럼과 상기 제2 탄뎀 스펙트럼을 서로 비교하여 상기 특정 질환군에 따른 질병과 대응하는 바이오마커를 추정하는 단계;를 포함한다.

상기 질량 스펙트럼은, 건강한 사람과 각종 암 질환 환자의 혈청에서 단백질 분해효소인 트립신을 첨가하여 미리 설정된 온도에서 미리 정해진 시간동안 반응시켜 폴리펩타이드를 획득하고, 획득된 폴리펩타이드를 질량분석기를 통해 분석하는 방식을 통해 생성된다.

상기 제1 당펩타이드 정량 분포 및 상기 제2 당펩타이드 정량 분포는, N-연결형 당펩타이드 및 O-연결형 당펩타이드 각각에 대한 전하율, 조각 이온의 질량, 스펙트럼 분포값과 피크 강도값 등을 지시하는 데이터일 수 있다.

상기 획득하는 단계 이후에, 외부의 공공 서버, 클라우드 서버, 또는 각종 기관 서버들과 연동하여 얻어지는 상기 질량 스펙트럼들 중에서, 다수의 암 질환들 각각에 대하여 라벨링되어 있는 질량 스펙트럼들의 수를 결정하고, 결정된 수가 미리 설정된 이하인 암 질환이 존재하는 경우,

라벨링되어 있지 않은 질량 스펙트럼들 중 스펙트럼 유사도에 따른 조건을 만족하는 적어도 일부에 대하여 상기 암 질환에 대한 질량 스펙트럼으로 라벨링하는 단계를 더 포함할 수 있다.

상기 인공신경망은 CNN(convolutional neural network) 기반의 인공신경망이고, 미리 수집된 훈련 데이터를 이용하여 지도학습된다.

상기 훈련 데이터는, 상기 특정 암 질환자와 정상인의 질량 스펙트럼에 대하여 실험적 정량 및 정성 분석을 통해 확인된 당펩타이드 분포와 대응하는 클래스(class)를 훈련 출력값으로 하고, 해당 실험적 정량 및 정성 분석이 수행된 질량 스펙트럼을 훈련 입력값으로 하는 데이터이다.

상기 목적을 달성하기 위한 본 발명의 다른 측면은, AI 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 방법을 제공한다.

상기 방법은, 외부의 공공 서버, 클라우드 서버, 또는 각종 기관 서버들과 연동하여 각종 암에 걸린 환자 또는 정상인의 혈청을 대상으로 질량분석을 실시하여 얻어지는 질량 스펙트럼들을 포함하는 공공 데이터(Public data) 및 개인 데이터(Private Data)를 획득하는 단계; 미리 지도학습된 인공신경망에 상기 질량 스펙트럼들을 입력하고, 상기 인공신경망의 출력에 기초하여 정상인 대조군과 대응하는 제1 당펩타이드 정량분포와 특정 질환군과 대응하는 제2 당펩타이드 정량분포를 예측하는 단계; 미리 구성된 라이브러리를 참조하여, 상기 제1 당펩타이드 정량분포와 가장 유사한 제1 탄뎀 스펙트럼과 상기 제2 당펩타이드 정량분포와 가장 유사한 제2 탄뎀 스펙트럼을 획득하는 단계; 및 상기 제1 탄뎀 스펙트럼과 상기 제2 탄뎀 스펙트럼을 서로 비교하여 상기 특정 질환군에 따른 질병과 대응하는 바이오마커를 추정하는 단계;를 포함한다.

상기와 같은 본 발명에 따른 AI 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 방법 및 장치를 이용할 경우에는 실험자의 과도한 시행착오를 방지하고, 예상 가능한 바이오마커에 해당하는 당펩타이드를 추정하여 제공할 수 있다.

또한, 인공신경망을 이용해 당펩타이드 정량분포를 예측하는 방식으로 구동되므로, 인공신경망이 직접 바이오마커를 예측하기 어려운 문제점을 우회하여 인공신경망이 비교적 높은 예측 성능을 갖도록 구현하는 것이 용이한 장점이 있다.

또한, 정상인 대조군이나 특정 암 질환군과 대응하는 당펩타이드 정량분포를 다수의 당펩타이드 정량분포들을 기반으로 얻기 때문에, 특정인에 한정적으로 영향을 주는 당펩타이드 대신에 최대한 다수의 사람들에게 공통적으로 영향을 주는 당펩타이드 분포 구조를 추정할 수 있다.

도 1은 본 발명의 일 실시예에 따른 AI 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 방법이 수행되는 환경을 나타낸 개념도이다.
도 2 는 도1에 따른 분석 서버의 기능적 구성을 나타낸 블록도이다.
도 3은 도 2에 따른 데이터 수집부의 동작을 예시적으로 나타낸 개념도이다.
도 4는 도 2에 따른 당펩타이드 정량분포 예측부의 동작을 예시적으로 나타낸 개념도이다.
도 5는 일 실시예에 따른 인공신경망의 구조를 나타낸 도면이다.
도 6은 도 1에 따른 분석 서버의 하드웨어 구성을 나타낸 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 명세서에 사용된 용어, "가수분해"는 당단백질로부터 당을 포함하는 펩타이드로 자르는 과정을 의미한다. 상기 가수분해 통상의 기술분야에 잘 알려진 방법이라면 어떠한 방법을 사용하여 수행될 수 있다. 특히, 상기 가수분해는 가수분해 효소를 사용하여 수행될 수 있고, 이는 구체적으로, 트립신(trypsin), 아르기닌 C(Arg-C), 아스파르트산 N(Asp-N), 글루탐산 C(Glu-C), 라이신 C(Lys-C), 키모트립신(chymotrypsin) 및 프로테나아제 K(proteinase K)로 구성된 군으로부터 선택된 효소로 수행될 수 있다.

본 명세서에 사용된 용어, "탄뎀 스펙트럼(MS/MS)"은 전체 질량 스펙트럼(MS) 중에서 관심있는 이온 또는 상대 적으로 감도가 높은 이온들을 선택하여 분석한 스펙트럼을 의미한다. 상기 탄뎀 스펙트럼의 질량을 분석하여 탄뎀 질량분석을 수행할 수 있다. 상기 탄뎀 스펙트럼은 CID-MS/MS 또는 HCD-MS/MS 스펙트럼일 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 AI 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 방법이 수행되는 환경을 나타낸 개념도이다.

도 1을 참조하면, 분석 장치(100, AI 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 장치와 혼용하여 지칭될 수 있음)는, 무선 네트워크 및 유선 네트워크를 통해 외부의 공공 서버, 클라우드 서버, 또는 각종 기관 서버들과 연동하여 공공 데이터(Public data) 및 개인 데이터(Private Data)를 획득할 수 있다.

예를 들어, 공공 서버는, 미국 국립 암연구소의 CPTAC(Clinical Proteome Tumor Analysis Consortium) 데이터 통합 시스템의 운영 서버일 수 있다.

예를 들어, 클라우드 서버는, 상기 방법을 수행하는 주체가 자체적으로 구축한 클라우드 기반의 분석 서버일 수 있다.

예를 들어, 각종 기관 서버는, 공동연구를 진행하는 병원이나 제약사 등의 운영 서버일 수 있다.

여기서 공공 데이터는, 각종 암에 걸린 환자 또는 정상인의 혈청을 대상으로 질량분석을 실시하여 얻어지는 질량 스펙트럼일 수 있다. 이때, 공공 데이터를 통해 확보되는 질량 스펙스럼은 해당 환자가 어떠한 암에 걸려있는지 라벨링되어 있을 수 있으나, 라벨링되어 있지 않을 수도 있다.

개인 데이터는, 각종 연구기관이나 의료기관, 제약사 등에서 다양한 사람들을 대상으로 질량분석을 실시하여 얻어지는 질량 스펙트럼일 수 있다. 이러한 질량분석은 질량분석기를 통해 실시될 수 있다.

이러한 질량분석기를 이용한 초고속 및 고감도의 정성 및 정량 분석이 당단백질의 분석에 주로 사용되고 있다. 특히, 다중반응 모니터링 질량 분석(multiple reaction monitoring mass spectrometry, MRM) 방법은 단백질의 가수분해로부터 생성되는 펩티드를 높은 신뢰도로 정량할 수 있는 방법을 제공한다.

이는 복잡한 구성을 갖는 혈액 시료로부터 상대적으로 신속하고 정확한 분석 결과를 얻을 수 있다. 또한, MRM 방법은 분석하고자 하는 표적 당단백질로부터 가수분해로 생성되는 표적 펩티드를 1회 이상의 액체 크로마토그래피 및 2회의 질량값 선택(precursor mass selection and fragment ion selection)에 의해 분리하여 분석함으로써, 혈액과 같은 시료를 이용하여 고감도의 선택적 분석이 가능하다.

한편, 최근 병렬반응 모니터링 질량 분석(parallel reaction monitoring, PRM) 기술이 알려지고 있다(Peterson et al., Mol. Cell Proteomics, 2012, 11(11):1475-1488). 이는 MRM과 달리 트랩(trap) 및 비행시간측정(time-of-flight) 계열의 질량 분석관을 갖는 질량 분석기를 이용하며, 펩티드의 조각이온 스펙트럼을 얻을 수 있어 펩티드의 정량 및 정성 분석이 동시에 가능하다. 또한, 낮은 신호를 나타내는 미량의 당단백질도 높은 재현성 및 우수한 감도로 분석할 수 있다(Kim et al.,Analytica Chimica acta., 2015(882):38-48).

질량 분석기를 이용한 특이적 당쇄의 분석방법으로는, 당단백질에서 분리된 당쇄를 분석하는 방법, 당쇄가 결합된 당펩티드를 분석하는 방법 및 당단백질을 분석하는 방법 등이 있다. 수식화에 의해 단백질에 결합된 당쇄는 다양한 구조를 가지며, 동일한 아미노산 위치에도 다양한 구조를 동시에 갖는 당쇄의 이질성(heterogeneity)을 나타낸다. 또한, 당쇄가 결합할 수 있는 아미노산의 위치도 다양하고, 그 위치에 따라 당쇄의 역할이 달라질 것으로 예상된다. 따라서, 위치 특이적으로 당펩티드를 분석하는 것이 중요하게 생각되고 있다.

한편, 이러한 질량 분석기를 이용한 질량 스펙트럼에 대하여 정량 및 정성 분석을 진행하는 데에는 고도로 정밀한 실험이 요구되며, 이는 실험자가 모든 암 질환자들 각각을 대상으로 이러한 실험을 진행하기에는 매우 소모적이고 불필요한 노력을 요구하는 경우가 많다.

이러한 문제점을 해결하기 위하여, 본 발명의 일 실시예에 따른 분석 장치(100)는, 공공 데이터와 개인 데이터를 통해 얻어지는 질량 스펙트럼들을 미리 지도학습(supervised learning)된 인공신경망(10)을 이용하여 분류함으로써 당펩타이드 정량 분포를 예측할 수 있다.

구체적으로, 분석 장치(100)는, 공공 데이터와 개인 데이터를 통해 얻어지는 질량 스펙트럼들을 스펙트럼 분석하여 다수의 암 질환군들 각각에 속하는 질량 스펙트럼들과 정상인 대조군에 속하는 질량 스펙트럼들을 결정할 수 있다.

예를 들어, 위암 질환군에 속하는 질량 스펙트럼들과 정상인 대조군에 속하는 질량 스펙트럼들을 결정할 수 있다.

본 발명의 일 실시예에 따른 질량 스펙트럼은, 건강한 사람과 각종 암 질환 환자의 혈청에서 단백질 분해효소인 트립신을 첨가하여 미리 설정된 온도(예를 들어 37도)에서 미리 정해진 시간(예를 들어 16시간)동안 반응시켜 폴리펩타이드를 획득하고, 획득된 폴리펩타이드를 질량분석기를 통해 분석하는 방식을 통해 생성된 것을 사용할 수 있다.

이때, 이때, 질병의 진단을 위한 시료로서 많이 사용되는 혈청(serum)에는 많은 단백질이 존재하는데, 그 중 약 10개의 고농도 단백질이 차지하는 혈액 내 질량비가 약 90% 이상이다. 하지만, 바이오마커로서 잘 알려진 단백질은 상대적으로 저농도인 단백질이 많아, 이를 시료 내에서 정확하게 검출하는 것이 어렵다(Anderson N.L. et al., Cell Proteomics, 2002, 1:845-867). 따라서, 혈청 내 바이오마커를 분석하기 위해 혈청의 복잡성을 최소화하는 전처리 과정이 요구된다. 여기에는 고농도의 단백질을 미리 제거하는 방법(depletion)과 표적 단백질을 선택적으로 농축하는, 항체 기반의 면역침강법이 있다.

본 발명의 일 실시예에 따른 질량 스펙트럼은, 고농도의 단백질을 미리 제거하는 방법을 통해 전처리된 혈청을 대상으로 질량분석하여 얻어질 수 있다.

분석 장치(100)는, 다수의 암 질환군들 각각에 속하는 질량 스펙트럼들을 인공신경망(10)에 입력하고, 인공신경망(10)의 출력에 기초하여 암 질환군에 대응하는 당펩타이드 정량 분포를 예측할 수 있다.

여기서 당펩타이드 정량 분포는, 주로 적은 질량이 포함된 경우가 많은 N-연결형 당펩타이드 및 O-연결형 당펩타이드 각각에 대한 전하율, 조각 이온의 질량, 스펙트럼 분포값과 피크 강도값 등을 지시하는 데이터일 수 있다.

이를 위해, 분석 장치(100)는, 인공신경망(10)에 의해 분류되는 클래스(class)들 각각에 대응하는 당펩타이드 정량 분포에 대한 테이블을 미리 생성하여 저장할 수 있다. 이때, 미리 생성되는 테이블의 데이터량이 방대할수록 당펩타이드 정량 분포의 예측율이 높아지며, 특히 정량 분포가 유의미하게 예측되기 위해서는 적어도 10만개 이상의 클래스들 각각에 대응하는 당펩타이드 정량 분포가 테이블로 저장되는 것이 바람직하다.

또한, 분석 장치(100)는, 정상인 대조군에 속하는 질량 스펙트럼들 각각을 인공신경망(10)에 입력하고, 인공신경망(10)의 출력에 기초하여 정상인 대조군에 대응하는 당펩타이드 정량 분포를 예측할 수 있다.

한편, 분석 장치(100)는, Agilent 테크놀로지사의 LC/MS 정성 분석을 위한 워크스테이션 소프트웨어인 MassHunter Qualitative Analysis 프로그램을 이용하여, Triple Quadrupole( 삼중 사중극자 ) 의 MRM 데이터에서 화합물을 식별하거나, 해당 프로그램의 라이브러리 검색 알고리즘을 통한 화합물 식별 등을 이용하여, 인공신경망(10)의 출력에 기초하여 예측된 당펩타이드 정량 분포와 가장 유사한 탄뎀 스펙트럼을 획득할 수 있다.

이를 위해, 분석 장치(100)는, 화합물 식별과 검색을 위한 LC/MS 정성 분석용 라이브러리(200)를 미리 생성하여 관리할 수 있다. 이러한 LC/MS 정성 분석용 라이브러리(200)는, MassHunter Qualitative Analysis 프로그램과 연동하여 GC/MS 데이터용 화합물들에 대한 이온 크로마토그램, TIC Scan 크로마토그램, MS 스펙트럼 등에 대한 데이터를 저장하고, MassHunter Qualitative Analysis 프로그램에 의해 열람될 수 있다.

따라서, 분석 장치(100)는, LC/MS 정성 분석용 라이브러리(200)를 참조하여, 예측된 당펩타이드 정량 분포와 가장 유사한 탄뎀 스펙트럼(또는 MS/MS 스펙트럼)을 획득할 수 있다.

분석 장치(100)는, 암 질환군에 대응하는 당펩타이드 정량 분포와 가장 유사한 제1 탄뎀 스펙트럼과, 정상인 대조군에 대응하는 당펩타이드 정량 분포와 가장 유사한 제2 탄뎀 스펙트럼을 서로 비교하고, 비교 결과에 기초하여 해당 암질환군에 따른 암질환과 대응하는 바이오마커를 추정할 수 있다.

도 2 는 도1에 따른 분석 서버의 기능적 구성을 나타낸 블록도이다. 도 3은 도 2에 따른 데이터 수집부의 동작을 예시적으로 나타낸 개념도이다. 도 4는 도 2에 따른 당펩타이드 정량분포 예측부의 동작을 예시적으로 나타낸 개념도이다.

도 2를 참조하면, 분석 서버(100)는, 건강한 사람과 각종 암 질환 환자의 혈청에서 얻어진 질량 스펙트럼들을 획득하는 데이터 수집부(101), LC/MS 정성 분석용 라이브러리(200)를 저장하고, 열람하고, 갱신하는 라이브러리 관리부(102), 인공신경망(10)에 훈련 데이터를 입력하여 인공신경망(10)을 지도학습시키는 인공신경망 학습부(103), 지도학습된 인공신경망(10)에 질량 스펙트럼을 입력하고, 인공신경망(10)의 출력에 기초하여 정상인 대조군과 대응하는 제1 당펩타이드 정량분포와 특정 질환군과 대응하는 제2 당펩타이드 정량분포를 예측하는 당펩타이드 분포 예측부(104), 및 LC/MS 정성 분석용 라이브러리(200)를 참조하여, 제1 당펩타이드 정량분포와 가장 유사한 제1 탄뎀 스펙트럼을 획득하고, 제2 당펩타이드 정량분포와 가장 유사한 제2 탄뎀 스펙트럼을 획득하며, 제1 탄뎀 스펙트럼과 제2 탄뎀 스펙트럼을 서로 비교하여 특정 질병환자군에 따른 질병과 대응하는 바이오마커를 추정하는 바이오마커 추정부(105)를 포함할 수 있다.

구체적으로, 데이터 수집부(101)는, 공공 데이터와 개인 데이터를 외부 서버 또는 외부 기관 서버와 연동하여 획득하고, 획득된 공공 데이터와 개인 데이터에 포함된 질량 스펙트럼에서, 다수의 암 질환들 각각에 대하여 라벨링되어 있는 질량 스펙트럼들의 수를 결정할 수 있다.

예를 들어, 위암 질환이 라벨링되어 있는 질량 스펙트럼의 수를 결정하고, 대장암 질환이 라벨링되어 있는 질량 스펙트럼의 수를 결정할 수 있다.

이때, 데이터 수집부(101)는, 라벨링되어 있는 질량 스펙트럼들의 수가 미리 설정된 임계값 이하인 암 질환에 대하여, 라벨링되어 있지 않은 질량 스펙트럼들에 대한 추가적인 라벨링을 수행할 수 있다.

구체적으로, 데이터 수집부(101)는, 라벨링되어 있는 질량 스펙트럼들의 수가 미리 설정된 임계값 이하인 표본 부족 암 질환에 대하여, 라벨링된 질량 스펙트럼들 중 적어도 하나를 선정하고, 선정된 적어도 하나의 질량 스펙트럼과 라벨링되어 있지 않은 질량 스펙트럼들 사이의 스펙트럼 유사도를 산출하고, 산출된 스펙트럼 유사도가 미리 설정된 임계값 이상이고, 라벨링되어 있지 않은 질량 스펙트럼들에 대해 표본 부족 암 질환으로 라벨링을 부여할 수 있다.

여기서, 스펙트럼 유사도는 하기 수학식 1에 기초하여 산출될 수 있다.

Si는, (x,y) 매트릭스이며, x는 n번째의 상대적인 피크 강도, y는 n번째의 피크의 질량이고, S'i는, (x',y') 매트릭스이며, x'은 n번째의 상대적인 피크 강도, y'은 n번째 의 피크의 질량일 수 있다.

즉, 본 발명에서 정의되는 스펙트럼 유사도를 통해 표본 부족 암 질환에 대한 추가적인 라벨링을 부여함으로써 충분한 표본 수를 마련함으로써, 본 발명에서 제안하는 프로세스가 용이하게 구현될 수 있도록 한다.

상술한 방식으로, 데이터 수집부(101)는, 추가적인 라벨링을 부여하고, 라벨링 결과에 기초하여, 다수의 암 질환들 각각에 대응하는 질량 스펙트럼들로 그룹핑된 다수의 암 질환군들을 생성할 수 있다.

예를 들어, 도 3을 참조하면, 위암 질환군에는 위암 질환이 있는 것으로 라벨링되었거나, 위암 질환으로 추가적으로 라벨링된 사람의 질량 스펙트럼들이 속하고, 대장암 질환군에는 대장암 질환이 있는 것으로 라벨링되었거나, 대장암 질환으로 추가적으로 라벨링된 사람의 질량 스펙트럼들이 속하도록 구성된다.

인공신경망 학습부(103)는, 미리 수집된 훈련 데이터를 이용하여 인공신경망(10)을 지도학습한다.

구체적으로, 훈련 데이터는 특정 암 질환자와 정상인의 질량 스펙트럼에 대하여 실험적 정량 및 정성 분석을 통해 확인된 당펩타이드 분포와 대응하는 클래스(class)를 훈련 출력값으로 하고, 해당 실험적 정량 및 정성 분석이 수행된 질량 스펙트럼을 훈련 입력값으로 하는 데이터일 수 있다.

여기서, 당펩타이드 분포와 대응하는 클래스라는 의미는 당펩타이드 분포를 인공신경망(10)이 분류하기 용이한 값으로 변환한 카테고리로서 통상의 기술자에게 용이하게 이해될 수 있다.

이때, 인공 신경망(10)은 질량 스펙트럼에 따른 이미지 데이터를 그대로 입력 데이터로서 학습하는 데 용이하고, 이미지 분류에 대하여 높은 성능을 가지는 것으로 알려진 CNN(Convolutional Neural Network) 기반의 인공신경망이 사용되는 것이 바람직할 수 있다.

당펩타이브 분포와 대응하는 클래스를 훈련 출력값으로 설정하기 위하여, 인공신경망 학습부(103)는, 클래스(class)들 각각에 대응하는 당펩타이드 정량 분포에 대한 테이블을 미리 생성하여 저장할 수 있다.

당펩타이드 분포 예측부(104)는, 이와 같은 방식으로 지도학습된 인공신경망(10)에 정상인 대조군과 특정 암 질환군에 속하는 질량 스펙트럼들을 입력하고, 인공신경망(10)의 출력에 기초하여 정상인 대조군과 대응하는 제1 당펩타이드 정량분포와 특정 암 질환군과 대응하는 제2 당펩타이드 정량분포를 예측할 수 있다.

구체적으로, 도 4를 참조하면, 당펩타이드 분포 예측부(104)는, 지도학습된 인공신경망(10)에 특정 암 질환군(예를 들어, 위암 질환군)에 속하는 질량 스펙트럼들을 순차적으로 입력하고, 인공신경망(10)의 출력에 기초하여 입력된 질량 스펙트럼들 각각에 대응하는 당펩타이드 정량분포들을 결정할 수 있다.

예를 들어, 여기서 당펩타이드 정량 분포는, 주로 적은 질량이 포함된 경우가 많은 N-연결형 당펩타이드들 및 O-연결형 당펩타이드들 각각에 대한 전하율(charge), 조각 이온의 질량(m/z), 스펙트럼 분포값과 피크 강도값 등을 지시하는 데이터일 수 있다.

당펩타이드 분포 예측부(104)는, 결정된 당펩타이드 정량 분포들 각각에 대응하는 다수의 행렬들(MC1~MCp, p는 특정 암 질환군에 속하는 질량 스펙트럼들의 개수)을 결정하고, 결정된 다수의 행렬들을 이용하여 특정 암 질환군과 대응하는 제1 당펩타이드 정량분포를 결정할 수 있다.

구체적으로, 당펩타이드 분포 예측부(104)는, 당펩타이드 정량 분포들 각각에 속하는 N-연결형 당펩타이드들 및 O-연결형 당펩타이드들 각각을 행으로 하고, 해당 종류와 대응하는 전하율(charge), 조각 이온의 질량(m/z), 스펙트럼 분포값과 피크 강도값 등을 열로 하는 다수의 행렬을 생성할 수 있다.

다음으로, 당펩타이드 분포 예측부(104)는, 다수의 행렬들 각각을 1:1비교하고, 1:1 비교 결과에 따라 둘 중 하나를 선정하는 방식을 반복하여 마지막 하나의 행렬(MCR)을 선정하고, 선정된 행렬(MCR)에 대응하는 당펩타이드 정량분포를 특정 암 질환군과 대응하는 제1 당펩타이드 정량분포로 결정할 수 있다.

구체적으로, 당펩타이드 분포 예측부(104)는, 1:1 비교 대상이 되는 제1 행렬과 제2 행렬에서 서로 공통되는 당펩타이드 행들을 선정하고, 선정된 행들 각각에 따른 행 벡터들을 서로 하기 수학식 2에 따라 연산하고, 연산 결과에 따른 값이 1보다 큰 경우, 제1 행렬을 선정한다.

수학식 2에서, rai는, 제1 행렬의 i번째 행 벡터이고, rbi는 제2 행렬의 i번째 행 벡터이다.

특정 암 질환군과 대응하는 제1 당펩타이드 정량분포로 결정하는 것과 마찬가지 방법으로, 당펩타이드 분포 예측부(104)는, 정상인 대조군과 대응하는 제2 당펩타이드 정량분포를 결정할 수 있다.

구체적으로, 당펩타이드 분포 예측부(104)는, 지도학습된 인공신경망(10)에 정상인 대조군에 속하는 질량 스펙트럼들을 순차적으로 입력하고, 인공신경망(10)의 출력에 기초하여 입력된 질량 스펙트럼들 각각에 대응하는 당펩타이드 정량분포들을 결정할 수 있다.

당펩타이드 분포 예측부(104)는, 결정된 당펩타이드 정량 분포들 각각에 대응하는 다수의 행렬들(MN1~MNq, q는 정상인 대조군에 속하는 질량 스펙트럼들의 개수)을 결정하고, 결정된 다수의 제2 행렬들을 이용하여 정상인 대조군과 대응하는 제2 당펩타이드 정량분포를 결정할 수 있다.

구체적으로, 당펩타이드 분포 예측부(104)는, 결정된 당펩타이드 정량 분포들 각각에 속하는 N-연결형 당펩타이드들 및 O-연결형 당펩타이드들 각각을 행으로 하고, 해당 종류와 대응하는 전하율(charge), 조각 이온의 질량(m/z), 스펙트럼 분포값과 피크 강도값 등을 열로 하는 다수의 행렬들을 생성할 수 있다.

다음으로, 당펩타이드 분포 예측부(104)는, 다수의 행렬들 각각을 1:1비교하고, 1:1 비교 결과에 따라 둘 중 하나를 선정하는 방식을 반복하여 마지막 하나의 행렬(MNR)을 선정하고, 선정된 행렬(MNR)에 대응하는 당펩타이드 정량분포를 정상인 대조군과 대응하는 제2 당펩타이드 정량분포로 결정할 수 있다.

구체적으로, 당펩타이드 분포 예측부(104)는, 1:1 비교 대상이 되는 제1 행렬과 제2 행렬에서 서로 공통되는 당펩타이드 행들을 선정하고, 선정된 행들 각각에 따른 행 벡터들을 서로 상술한 수학식 2에 따라 연산하고, 연산 결과에 따른 값이 1보다 큰 경우, 제1 행렬을 선정할 수 있다.

바이오마커 추정부(105)는, LC/MS 정성 분석용 라이브러리(200)를 참조하여, 제1 당펩타이드 정량분포와 가장 유사한 제1 탄뎀 스펙트럼을 획득하고, 제2 당펩타이드 정량분포와 가장 유사한 제2 탄뎀 스펙트럼을 획득하며, 제1 탄뎀 스펙트럼과 제2 탄뎀 스펙트럼을 서로 비교하여 특정 질병환자군에 따른 질병과 대응하는 바이오마커를 추정한다.

일 실시예에서, 바이오마커 추정부(105)는, 상기 제1 탄뎀 스펙트럼과 제2 탄뎀 스펙트럼을 비교하고, 비교결과 미리 설정된 임계 범위 이상으로 차이가 나는 피크들을 탐색하고, 탐색된 피크들에 대응하는 당펩타이드와 당쇄 조성을 확인하고, 여기서 확인되는 당펩타이드와 당쇄 조성을 특정 암 질환군에 따른 암 질환을 진단하기 위한 바이오마커로 추정할 수 있다.

여기서, 피크들과 대응하는 당펩타이드와 당쇄 조성을 확인하기 위하여, 바이오마커 추정부(105)는, 앞서 구성된 LC/MS 정성 분석용 라이브러리(200)를 참조할 수 있다.

이처럼, 바이오마커 추정부(105)는, 특정 암 질환군에 따른 암 질환을 진단하기 위한 바이오마커로 추정되는 당펩타이드와 당쇄 조성을 제공하기 때문에, 암 특이적 바이오마커를 탐색하기 위한 실험자의 노력을 크게 줄이고, 여기서 추정되는 당펩타이드와 당쇄 조성이 포함된 단백질을 표적 단백질로하여 시료로 삼고, 이를 기반으로 심도있는 실험이 진행될 수 있다.

도 5는 일 실시예에 따른 인공신경망의 구조를 나타낸 도면이다.

도 5를 참조하면, 일 실시예에 따른 인공 신경망(neural network, 10)은, 미리 설정된 크기의 질량 스펙트럼에 대한 이미지를 입력 이미지로 입력받아, 특징 맵을 추출하는 컨볼루셔널 계층(11), 추출된 특징에 대해 활성화 함수를 이용해 출력을 활성화할지 여부를 결정하는 활성화 계층(12), 활성화 계층(12)에 따른 출력에 대해 샘플링을 수행하는 풀링 계층(13), 클래스에 따른 분류를 수행하는 완전 연결 계층(14), 완전 연결 계층(14)에 따른 출력을 최종적으로 출력하는 출력 계층(15)을 포함할 수 있다.

컨볼루셔널 계층(11)은 입력 이미지와 필터를 서로 합성곱함으로써 입력 데이터의 특징을 추출하는 계층일 수 있다. 여기서 필터는 입력 이미지의 특징적 부분을 검출하는 함수로서, 일반적으로 행렬로 표현되며 학습 데이터에 의해 지속적으로 학습됨에 따라 결정되는 함수일 수 있다. 컨볼루셔널 계층(11)에 의해 추출된 특징은 특징 맵(feature map)으로 지칭될 수도 있다. 또한, 합성곱을 수행하는 간격 값을 스트라이드(stride)라고 지칭할 수 있는데, 스트라이드 값에 따라 다른 크기의 특징 맵이 추출될 수 있다. 이때, 특징 맵은 필터의 크기가 입력 이미지보다 작으면, 기존의 입력 이미지보다 더 작은 크기를 갖게 되는데, 여러 단계를 거쳐 특징이 소실되는 것을 방지하기 위하여 패딩 과정이 추가로 수행될 수 있다. 이때, 패딩 과정은 생성된 특징 맵의 외곽에 미리 설정된 값(예를 들면 0이나 1)을 추가함으로써 입력 이미지의 크기와 특징 맵의 크기를 동일하게 유지하는 과정일 수 있다.

여기서 본 발명의 일 실시예에 따른 컨볼루셔널 계층(11)은, 1×1 컨볼루셔널 계층과 3×3 컨볼루셔널 계층을 순차로 반복 연결한 구조를 사용할 수 있다.

활성화 계층(12)는 어떠한 값(또는 행렬)으로 추출된 특징을 활성화 함수에 따라 비선형 값으로 바꾸어 활성화 여부를 결정하는 계층으로, 활성화 함수로는 시그모이드(sigmoid) 함수, ReLU 함수, 소프트맥스(softmax) 함수 등이 사용될 수 있다. 예를 들어, 소프트맥스 함수는 입력된 값을 0~1사이의 값으로 모두 정규화하며 출력 값들의 총합은 항상 1이 되는 특성을 가진 함수일 수 있다.

풀링 계층(130)은 활성화 계층(12)의 출력에 대하여 서브 샘플링(subsampling) 또는 풀링(pooling)을 수행하여 특징맵을 대표하는 특징을 선정하는 계층으로서, 특징맵의 일정 영역에 대하여 가장 큰 값을 추출하는 맥스 풀링(max pooling), 평균값을 추출하는 애버리지 풀링(average pooling) 등이 수행될 수 있다. 이때, 풀링 계층은 활성화 함수 이후에 반드시 수행되는 것이 아니라 선택적으로 수행될 수 있다.

또한, 여기서 인공 신경망(10)은, 컨볼루셔널 계층(11), 활성화 계층(12), 풀링 계층(13)의 연결 구조가 복수개 포함될 수도 있다.

도 6은 도 1에 따른 분석 서버의 하드웨어 구성을 나타낸 도면이다.

도 6을 참조하면, 분석 서버(100)는, 적어도 하나의 프로세서(110); 및 상기 적어도 하나의 프로세서(110)가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함할 수 있다.

상기 적어도 하나의 동작은 전술한 분석 서버(100)의 동작이나 기능들 중 적어도 일부를 포함하는 것으로 해석되며, 중복 설명을 방지하기 위하여 구체적인 설명은 생략된다.

여기서 적어도 하나의 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다.

메모리(120)는 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중 하나일 수 있고,

분석 서버(100)는, 상술한 적어도 하나의 동작을 수행하기 위한 임시 데이터, 중간 데이터, 처리 결과 데이터 등을 저장하기 위한 저장 장치(160)를 더 포함할 수 있다. 예를 들어, 저장 장치(160)는, LC/MS 정성 분석용 라이브러리(200)를 포함할 수 있다. 저장 장치(160)는, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD), 솔리드 스테이트 드라이브(SSD), 또는 각종 메모리 카드(예를 들어, micro SD 카드) 등일 수 있다.

또한, 분석 서버(100)는, 무선 네트워크를 통해 통신을 수행하는 송수신 장치(transceiver)(130)를 포함할 수 있다. 또한, 분석 서버(100)는 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 분석 서버(100)에 포함된 각각의 구성 요소들은 버스(bus)(170)에 의해 연결되어 서로 통신을 수행할 수 있다.

분석 서버(100)의 예를 들면, 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 노트북(notebook), 스마트폰(smart phone), 태블릿 PC(tablet PC), 모바일폰(mobile phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), PDA(Personal Digital Assistant) 등일 수 있다.

한편, 전술한 분석 서버(100)의 동작으로 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 방법에 대해 설명하였으나 이에 한정되는 것은 아니다. 예를 들어, 분석 서버(100)는, 당펩타이드 분석을 통해 결정된 바이오마커 타겟 후보군들을 머신러닝 기반의 GBDT(Gradient Boosted Decision Tree) 모델을 이용하여 분석함으로써 최적의 조합을 찾고, 이를 암 특이적 바이오마커 패널로 구성하는 동작을 수행할 수도 있다.

본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 매체의 예에는 롬(ROM), 램(RAM), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

또한, 상술한 방법 또는 장치는 그 구성이나 기능의 전부 또는 일부가 결합되어 구현되거나, 분리되어 구현될 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10: 인공신경망
100: 분석 서버
101: 데이터 수집부
102: 라이브러리 관리부
103: 인공신경망 학습부
104: 당펩타이드 분포 예측부
105: 바이오마커 추정부
110: 프로세서
120: 메모리
130: 송수신 장치
140: 입력 인터페이스 장치
150: 출력 인터페이스 장치
160: 저장 장치
170: 버스

Claims

AI 기반으로 질량 스펙트럼에 따른 당펩타이드 분석을 통해 암 특이적 바이오마커를 결정하는 장치로서,
적어도 하나의 프로세서(processor); 및
상기 적어도 하나의 프로세서가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함하고,
상기 적어도 하나의 동작은,
외부의 공공 서버, 클라우드 서버, 또는 각종 기관 서버들과 연동하여 공공 데이터(Public data) 및 개인 데이터(Private Data)를 획득하는 단계;
획득된 상기 공공 데이터와 상기 개인 데이터에서 각종 암에 걸린 환자 또는 정상인의 혈청을 대상으로 질량분석을 실시하여 얻어지는 질량 스펙트럼들을 획득하는 단계;
미리 지도학습된 인공신경망에 상기 질량 스펙트럼들을 입력하고, 상기 인공신경망의 출력에 기초하여 정상인 대조군과 대응하는 제1 당펩타이드 정량분포와 특정 질환군과 대응하는 제2 당펩타이드 정량분포를 예측하는 단계;
미리 구성된 라이브러리를 참조하여, 상기 제1 당펩타이드 정량분포와 가장 유사한 제1 탄뎀 스펙트럼과 상기 제2 당펩타이드 정량분포와 가장 유사한 제2 탄뎀 스펙트럼을 획득하는 단계; 및
상기 제1 탄뎀 스펙트럼과 상기 제2 탄뎀 스펙트럼을 서로 비교하여 상기 특정 질환군에 따른 질병과 대응하는 바이오마커를 추정하는 단계;를 포함하고,
상기 정상인 대조군과 대응하는 제1 당펩타이드 정량분포와 특정 질환군과 대응하는 제2 당펩타이드 정량분포를 예측하는 단계는,
상기 인공신경망에 상기 정상인 대조군에 속하는 질량 스펙트럼들을 순차적으로 입력하고, 입력된 질량 스펙트럼들 각각에 대응하는 출력들로서 제1 후보 당펩타이드 정량분포들을 획득하는 단계;
획득된 상기 제1 후보 당펩타이드 정량분포들 각각에 대응하는 다수의 제1 행렬들을 생성하는 단계;
생성된 상기 제1 행렬들을 대상으로 1:1 비교하고, 1:1 비교된 2개의 행렬들에서 서로 공통되는 당펩타이드에 대응하는 행들을 선정하고, 선정된 행들에 의해 지시되는 행 벡터들을 이용하여 하기 수학식에 따른 연산을 수행하고, 연산 결과에 따라 1:1 비교된 2개의 행렬들 중 하나를 선정하는 과정을 반복함으로써, 상기 제1 행렬들 중 마지막 하나의 제1 행렬을 선정하는 단계; 및

(수학식에서 rai는 2개의 행렬들 중 첫번째 행렬의 i번째 행 벡터이고, rbi는 2개의 행렬들 중 두번째 행렬의 i번째 행 벡터임)
선정된 상기 마지막 하나의 제1 행렬에 대응하는 제1 후보 당펩타이드 정량분포를 상기 정상인 대조군과 대응하는 제1 당펩타이드 정량분포로 결정하는 단계;를 포함하고,
상기 정상인 대조군과 대응하는 제1 당펩타이드 정량분포와 특정 질환군과 대응하는 제2 당펩타이드 정량분포를 예측하는 단계는,
상기 인공신경망에 상기 특정 질환군에 속하는 질량 스펙트럼들을 순차적으로 입력하고, 입력된 질량 스펙트럼들 각각에 대응하는 출력들로서 제2 후보 당펩타이드 정량분포들을 획득하는 단계;
획득된 상기 제2 후보 당펩타이드 정량분포들 각각에 대응하는 다수의 제2 행렬들을 생성하는 단계;
생성된 상기 제2 행렬들을 대상으로 1:1 비교하고, 1:1 비교된 2개의 행렬들에서 서로 공통되는 당펩타이드에 대응하는 행들을 선정하고, 선정된 행들에 의해 지시되는 행 벡터들을 이용하여 상기 수학식에 따른 연산을 수행하고, 연산 결과에 따라 1:1 비교된 2개의 행렬들 중 하나를 선정하는 과정을 반복함으로써, 상기 제2 행렬들 중 마지막 하나의 제2 행렬을 선정하는 단계; 및
선정된 상기 마지막 하나의 제2 행렬에 대응하는 제2 후보 당펩타이드 정량분포를 상기 특정 질환군과 대응하는 제2 당펩타이드 정량분포로 결정하는 단계;를 더 포함하는, 장치.
청구항 1에서,
상기 질량 스펙트럼은,
건강한 사람과 각종 암 질환 환자의 혈청에서 단백질 분해효소인 트립신을 첨가하여 미리 설정된 온도에서 미리 정해진 시간동안 반응시켜 폴리펩타이드를 획득하고, 획득된 폴리펩타이드를 질량분석기를 통해 분석하는 방식을 통해 생성되는, 장치.
청구항 1에서,
상기 제1 당펩타이드 정량 분포 및 상기 제2 당펩타이드 정량 분포는,
N-연결형 당펩타이드 및 O-연결형 당펩타이드 각각에 대한 전하율, 조각 이온의 질량, 스펙트럼 분포값과 피크 강도값 등을 지시하는 데이터인, 장치.
청구항 3에서,
상기 획득하는 단계 이후에,
외부의 공공 서버, 클라우드 서버, 또는 각종 기관 서버들과 연동하여 얻어지는 상기 질량 스펙트럼들 중에서, 다수의 암 질환들 각각에 대하여 라벨링되어 있는 질량 스펙트럼들의 수를 결정하고, 결정된 수가 미리 설정된 이하인 암 질환이 존재하는 경우,
라벨링되어 있지 않은 질량 스펙트럼들 중 스펙트럼 유사도에 따른 조건을 만족하는 적어도 일부에 대하여 상기 암 질환에 대한 질량 스펙트럼으로 라벨링하는 단계를 더 포함하는, 장치.
청구항 3에서,
상기 인공신경망은 CNN(convolutional neural network) 기반의 인공신경망이고, 미리 수집된 훈련 데이터를 이용하여 지도학습되되,
상기 훈련 데이터는,
상기 특정 암 질환자와 정상인의 질량 스펙트럼에 대하여 실험적 정량 및 정성 분석을 통해 확인된 당펩타이드 분포와 대응하는 클래스(class)를 훈련 출력값으로 하고, 해당 실험적 정량 및 정성 분석이 수행된 질량 스펙트럼을 훈련 입력값으로 하는 데이터인, 장치.