KR20240065434A

KR20240065434A - 암의 재발 및 전이를 예측 가능한 환자관리시스템

Info

Publication number: KR20240065434A
Application number: KR1020220141143A
Authority: KR
Inventors: 권도혜; 안광성
Original assignee: 주식회사 피디젠
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2024-05-14

Abstract

본 발명의 일 실시예에 따른 환자관리시스템은 환자의 임상정보를 포함한 유전체 정보를 데이터로 저장하는 저장부, 저장부에 저장된 데이터의 특성을 임상정보를 기반으로 분석하는 분석부, 분석부를 통해 산출된 데이터 중, 관찰기간동안 암의 재발이나 전이상태의 변화가 생긴 환자의 상기 데이터를 별도로 구분하는 분류부, 분류부로부터 별도로 구분된 환자들에게 암의 진행상황이나 맞춤 항암제를 처방하여 해당 정보를 전달하는 출력부를 포함할 수 있다.

Description

암의 재발 및 전이를 예측 가능한 환자관리시스템{PATIENT CARE SYSTEM TO PREDICT CANCER RECURRENCE AND METASTASIS}

본 발명은 암의 재발 및 전이를 예측 가능한 환자관리시스템에 관한 것으로서, 관찰기간 동안 환자의 암의 발병 및 전이를 예측하여 데이터를 출력함으로써 환자의 사후관리를 위한 시스템에 관한 것이다.

암이 발생하게 되면, 1차적으로 환자는 수술이나 항암제, 방사선 등으로 치료를 받게 된다. 이후, 재발하지 않도록 경과를 지켜보며 식단관리나 3~6 개월에 한 번씩 외래 진료를 받으며 필요한 진찰과 검사를 하기도 한다.

이때, 검사는 치료받은 암의 종류에 따라 다소 차이가 있으나 일반적으로 종양 표지자 검사를 포함한 혈액검사, 단순 흉부 방사선 검사, 전산화 단층촬영 등의 영상검사, 식도, 위, 대장과 같은 내시경 검사, 핵의학 검사 등이 있다.

이와 같이 환자들은 사후관리를 위해 많은 검사를 진행하고, 외래 진료를 진행하지만, 그럼에도 불구하고, 암의 재발이나 다른 장기로의 전이도 상당히 많은 빈도로 발생하고 있다. 이에 따라, 환자의 예후를 위해 암의 재발이나 전이 여부를 빠르게 인지하는 것이 가장 중요하다.

하지만, 치료 이후 경과를 지켜보는 관찰기간 동안 관리에 소홀하거나, 병원에 직접 내방하여 환자가 직접 검사를 진행하기 전까지는 암의 진행상태를 알기가 어렵다는 문제점이 있다.

상기와 같은 기술적 배경을 바탕으로 안출된 것으로, 본 발명은 항암치료 후 관찰기간 동안 손쉽게 암의 재발 및 전이 여부를 예측하고, 동시에 축적된 유전체 정보를 분석하여 환자에게 적합한 항암제를 선별할 수 있는 환자관리시스템을 제공하고자 한다.

본 발명의 일 실시예에 따른 환자관리시스템은 환자의 임상정보를 포함한 유전체 정보를 데이터로 저장하는 저장부, 상기 저장부에 저장된 상기 데이터의 특성을 임상정보를 기반으로 분석하는 분석부, 상기 분석부를 통해 산출된 상기 데이터 중, 관찰기간동안 암의 재발이나 전이상태의 변화가 생긴 환자의 상기 데이터를 별도로 구분하는 분류부, 상기 분류부로부터 별도로 구분된 상기 환자에게 암의 진행상황이나 맞춤 항암제를 처방하여 해당 정보를 전달하는 출력부를 포함할 수 있다.

분석부는, 액체 생검에 기반하여 종양의 진행과정을 최적의 알고리즘이 자동으로 선택되어 처리되는 것을 특징으로 할 수 있으며, 알고리즘은 ADA Boost, Bernoulli Naive Bayes, Decision Tree, Extra Trees, Gaussian Naive Bayes, Gradient Boosting, Histogra m-based Gradient Boost Tree, Support Vector, K-Nearest Neighbors, Multi-Layered Perceptron, Random Forest, Stochastic Gradient Descent, xGBoost로 이루어진 군에서 하나 이상으로 선택되어 처리되는 것을 특징으로 할 수 있다.

또한, 혈액의 CTC 분리를 통해 암의 재발 및 전이를 판단하는 마커로 사용하는 것을 특징으로 할 수 있으며, 혈액의 CTC 분리 후, FastQC 툴을 이용하여 서열정보를 분석할 수 있다.

본 발명의 일 실시예에 따른 환자관리시스템은, 저장된 임상정보 및 유전체 정보를 통해 관찰기간 동안 지속적으로 경과를 지켜볼 수 있으며, 암의 재발 및 전이를 예측하여 항암치료 이후 환자의 사후관리에 도움을 줄 수 있다.

도 1은 본 발명의 일 실시예에 따른 환자관리시스템을 나타낸 블록도이다.
도 2는 환자관리시스템의 분석부에서 CTC 분리를 통해 폐암 환자의 혈액과 비교한 그래프이다.
도 3의 (a)는 혈액의 CTC 분리 후, FastQC 툴을 이용하여 서열정보를 분석한 그래프이다.
도 3의 (b)는 (a)그래프를 보정하여 Overrepresented sequences를 확인한 그래프이다.
도 4는 CTC 분리 후, 확률밀도함수로 모델링하여 CTC 비율의 추정을 위한 과정을 나타내는 도면이다.
도 5는 베이즈 통계 기반 mixture model 학습을 통한 CTC 비율 추정 및 somatic SNV 동정 개념도이다.
도 6은 GATK calling 파이프라인의 예시를 나타낸 도면이다.

이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참고부호를 붙였다.

본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 또한, 층, 막, 영역, 판 등의 부분이 다른 부분 "위에" 있다고 할 경우, 이는 다른 부분 "바로 위에" 있는 경우뿐만 아니라 그 중간에 또 다른 부분이 있는 경우도 포함한다. 반대로 층, 막, 영역, 판 등의 부분이 다른 부분 "아래에" 있다고 할 경우, 이는 다른 부분 "바로 아래에" 있는 경우뿐만 아니라 그 중간에 또 다른 부분이 있는 경우도 포함한다.

본 발명에서 제안하는 환자관리시스템을 위한 모니터링 방법을 위해서는 암환자의 혈액 샘플의 정보가 필요하다. 혈액 샘플은 각 지역의 1차 병원이나 2차 병원에서 채취하여 제공할 수 있다. 혈액 샘플에 포함된 cfDNA를 검사하여 암이 다른 부위로 전위될 가능성을 검토할 수 있다. 이에 따라, 일 예에 따른 암 재발 및 전이 예측을 위한 NGS 기반 데이터 분석 방법은 분석 대상의 혈액 샘플과 임상 정보를 1차 병원 내지 2차 병원으로부터 제공받아 데이터를 획득하는 단계를 포함할 수 있다. 예를 들어, 데이터는 NGS 데이터일 수 있다. 차세대 시퀀싱(Next Generation Sequencing, NGS) 기술이란 생명체의 DNA나 RNA를 잘게 쪼개어 그 서열을 기계로 읽어 들이는 기술이다. 차세대 시퀀싱 기술은 DNA를 추출하고, DNA를 짧은 서열 조각(fragment)로 쪼개어, 각 서열조각에 대하여, 서열에 포함된 염기를 분석하는 시퀀싱을 수행한다. 시퀀싱 방법으로 파이로 시퀀싱(Pyrosequencing), 일루미나 시퀀싱 방법 등이 있다.

다음, 혈액 샘플에서 암 유전자를 추적하여, 상기 분석 대상의 유전자에 관한 유전형이 서로 다른 염기 서열들 각각에 분석 대상 데이터를 매핑(mapping)하는 단계를 포함할 수 있다. 예를 들어, 매핑하는 단계는 시퀀싱 후 각서열 조각이 유전체(genome)의 어떤 위치에 해당하는지 알기 위하여 레퍼런스 유전체를 기준으로 각 서열 조각을 정렬하는 매핑(mapping)을 수행하여, 서열 조각들의 유전체 내 위치를 파악하는 과정일 수 있다. 모든 서열 조각의 위치를 파악한 후에는 DNA의 변이 여부를 분석하거나, DNA가 RNA로 전사된 양을 측정하는 등의 다양한 분석을 수행할 수 있다.

다음, 매핑 결과에 기초하여, 상기 분석 대상 데이터가 상기 분석대상 유전자에 관한 유전형들 각각에 대응할 확률들을 획득하여 암의 재발 및 전이 발현성을 연산하는 단계를 포함할 수 있다. 암의 재발 및 전이 발현성을 연산하는 단계는 상기 혈액 샘플에서 혈중 암세포 CTC(Circulating Tumor Cell)를 분리하는 단계를 포함할 수 있다. 또한, 분리된 혈중 암세포 CTC를 배양하고, 다중오믹스 싱글셀 모델을 적용하는 단계 및 유전자 발현 및 DNA 메틸화와 CTC fraction의 관계를 분석함으로써 원발암과 전이암의 이질적 특성 분석하는 단계를 더 포함할 수 있다.

이 과정에서, 암 환자의 혈액에서 암세포를 분리하는 기법과 암환자 혈액에 존재하는 cfDNA를 분리하는 기법이 활용될 수 있다. 또한 CTC 및 cfDNA를 분석하는 NGS 기반 알고리즘이 활용될 수 있다. 또한 Bio-knowledge View를 이용한 변이 유전자와 암의 진행(재발 및 전이)관 관련성 규명을 위한 알고리즘이 활용될 수 있다. 또한, 실시간 세포 추적 시스템을 이용 혈중 암세포의 항암제 감수성 분석 알고리즘이 활용될 수 있다.

예를 들어, 전자 발현 및 DNA 메틸화와 CTC fraction의 관계를 분석은 RNA-seq 데이터, methylation 정보 등을 활용하여 CTC fraction을 예측하는 방법이 사용될 수 있다. 또한, 예측된 결과를 WES 기반 결과와 비교 분석하고, bulk 시퀀싱이 아닌 다중오믹스 싱글셀 시퀀싱 분석 프로토콜도 구축하여 싱글셀 기반을 분석할 수 있다.

또한, 다양한 형태의 오믹스 데이터를 수집하고, 필요시 개발된 방법론의 정확도 확인을 위한 시뮬레이션 데이터를 생성할 수 있으며, 이를 활용하여 다중 오믹스 데이터의 기본 분석을 수행할 수 있다. 다중오믹스 데이터를 이용한 CTC fraction estimation에서는 기본적으로 확률 기반 mixture 모델을 활용, RNAseq을 이용한 유전자별 발현양 분포, methylation을 표현하는 beta 값의 분포 등이 여러 가지 형태의 다른 분포의 조합에 의해 만들어진 것으로 가정하고 이를 분리할 수 있다.

다음, 발현성을 이용하여, 암환자의 암의 재발 및 전이에 대한 결과 리포트를 생성하는 단계를 포함할 수 있다. 예를 들어, CTC에서의 유전자 발현양 분포에 대한 모델링 및 이에 대한 분리는 각 유전자 별 CTC 내 발현양을 예측하는 것을 가능하게 할 수 있다. 즉 bulk 시퀀싱 정보에 의해 얻어진 발현양이 아닌, CTC만의 유전자 발현양을 분리/확인하는 것이 가능할 수 있다. 이를 통해 CTC에서

특이적으로 높은 발현양 혹은 낮은 발현양을 가지는 유전자를 발굴할 수 있고, CTC

의 특성을 보다 명확히 파악할 수 있다. 또한, 임상 활용을 위해서도 CTC에서의 특

이적인 발현양 정보를 축적할 수 있다. 다른 예로, regression 기반 모델이나 NMF와 같은 deconvolution 방법을 이용하여 분리하는 것도 가능할 수 있다.

Regression 기반 모델의 경우 reference 혹은 gold standard로 사용할만한 데이터가 이미 존재해야한다는 문제가 있지만, 기존 CTC 관련 연구에서 생성된 데이터를 활용하여 reference로 삼아 이용하는 것이 가능할 수 있다. 이에 따라, Deconvolution 모델 기반 방법 역시 유전자 별 CTC 특이적 발현양 예측에 효과적으로 활용할 수 있다.

다음, 분석 대상의 유전체 데이터 베이스를 구축하는 단계를 포함할 수 있다. 분석 대상의 유전체 데이터 베이스를 구축하는 단계는 암의 재발 및 전이에 대한 결과 리포트를 기반으로 개인 유전체 정보 카탈로그를 구축하는 단계를 포함할 수 있다. 개인 유전체 정보 카탈로그는 암 환자 샘플에서 획득한 CTC 유전체 데이터 베이스, 소세포폐암 환자 샘플의 기본 임상자료 데이터 베이터 베이스, 소세포폐암 환자 샘플에서의 CTC 유전체 변이 데이터 베이스 및 암환자의 임상정보와 CTC 분석 정보 데이터 베이스를 포함할 수 있다.

예를 들어, 본 발명에서는 기계 학습(machine learning)의 두가지 방법인 지도 학습(supervised learning)과 비지도 학습(unsupervised learning) 중에서 지도 학습을 활용하는 과정을 볼 수 있다. 즉, 답이 있는 상태에서 변수들을 최적화시켜주는 지도 학습을 통해 신뢰도를 높이는 작업을 진행할 수 있다. 예를 들어, 임상정보(혈압, 혈당, 흡연, 음주 등), 암유전자의 변이 정보, 심리적 설문지 정보, 장내 미생물의 정보를 양극단의 그룹으로 학습데이터를 구성하여 데이터베이스를 구축하여 예측에 정확도를 높일 수 있다. 또한 이는 암환자의 혈액 샘플과 임상 정보가 쌓이면 쌓일수록 그 정확도를 높일 수 있다는 장점이 있다. 이 과정에서 재발 및 전이 형성에 관여하는 변이 유전자의 발견과 임상적 소견과 연계성 분석을 위한 딥 러닝 알고리즘이 활용될 수 있다.

딥 러닝을 하기 위한 알고리즘은 Hidden Markov Model(HMM), Markov Chain, Restricted Boltzmann Machines,Viterbi, Forward-Backward 등의 모델을 사용할 수 있다. 딥 러닝에 필요한 입력 정보는 임상정보(혈압, 혈당, 성별, 심박수 등), 기 확보된 Oncopanel Marker에서 나온 돌연변이 정보, 심리 설문지, 항암제, 논문 정보가 있다.

이러한 입력 정보를 토대로 각 변수들을 강화 학습 최적화(Convolutional Layer, Pooling Layer, Width). 지도 학습(Supervised Learning)으로부터 최적화된 결과값을 그룹화할 수 있다. 즉, 돌연변이의 종류, 임상정보(혈압, 혈당, 당뇨, 심박수), 심리 설문지(우울증, 강박증, 폐쇄공포증)정보, 논문정보에 대한 데이터베이스를 축적하고 재발 및 전이 예측의 정확성을 높여 정보를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 환자관리시스템을 나타낸 블록도이다.

도 1을 참고하면, 암의 재발 및 전이를 예측 가능한 환자관리시스템(100)은, 저장부(10), 분석부(20), 분류부(30), 출력부(40)를 포함할 수 있다.

저장부(10)는, 환자의 임상정보를 포함한 유전체 정보를 데이터로 저장할 수 있다. 구체적으로 저장부(10)는, 환자정보저장부(11), 혈액정보저장부(12), 임상정보저장부(13)를 포함할 수 있다.

환자정보저장부(11)는, 환자의 기본정보를 포함할 수 있다. 예를 들면, 환자의 이름이나 연령, 암의 가족력이나 병명 및 연락처 등이 될 수 있다. 이에 따라, 환자의 기본적인 정보를 확인하고, 다른 정보들과의 매칭을 통해 데이터베이스를 형성할 수 있다.

혈액정보저장부(12)는, 혈액 샘플에서 원하는 정보를 추출하여 별도로 저장할 수 있다. 예를 들면, 혈액 샘플에서 암 유전자를 적하여, 분석 대상 유전자에 관한 유전형이 서로 다른 염기 서열들 각각에 분석 대상 데이터를 매핑하도록 할 수 있다. 혈액정보저장부(12)에 저장된 혈액 샘플의 DNA 정보를 로딩하고, 분석부(30)로 이관하여 보다 정밀하게 분석을 수행할 수 있다. 이에 따라, 저장된 혈액 샘플 정보에서 cfDNA를 추적하여 암 유전자의 전이 가능성을 확인할 수 있다.

임상정보저장부(13)는, 기본적으로 환자가 기존에 앓고 있는 암의 진행상황, 수술여부, 환자가 검사 및 수술을 위해 받은 검사 내역 및 결과 등이 포함되어 분석부(20)에서 저장된 데이터가 연산될 수 있다. 구체적으로, 환자 및 담당의가 입력한 정보들을 토대로 환자의 유전자에 관한 유전형들 각각에 대응할 확률들을 획득하여 암의 재발 및 전이 발현성을 연산할 수 있다. 이와 같이, 임상정보저장부(13)에 저장된 기초 정보들을 토대로 분석부(20)에서 보다 정밀하게 연산하고 분석하여 암의 재발 및 전이 발현성을 예측할 수 있다.

분석부(20)는, 저장부(10)에 저장된 데이터의 특성을 임상정보를 기반으로 분석할 수 있다. 저장된 데이터의 특성에 따라, 분석하는 방법이 선택되며 경우에 따라서는 여러가지 방법을 수행하여 분석이 이루어질 수 있다. 예를 들면, 혈액정보저장부(12)와 임상정보저장부(13)에 저장된 데이터들을 통해 적절한 분석법을 선택하여 연산하고, 유전체들의 연산 수행을 통해 암의 재발 및 전이 발현성의 여부를 판단할 수 있다. 이를 통해, 환자가 가지고 있는 고유의 유전형들이 암의 재발이나 전이를 야기시킬 수 있는지 미리 예측이 가능하여, 그에 대비할 수 있는 시간적 여유를 벌 수 있다.

구체적으로 분석부(20)는, CTC분리부(21), Baysian분석부(22), ML기반예측분석부(23), Somatic SNV동정부(24), CTC패널예측분석부(25), 개인유전체DB수집부(26)를 포함할 수 있다.

CTC분리부(21)는, 혈액의 CTC 분리를 통해 암의 재발 및 전이를 판단하는 마커로 사용하는 것을 특징으로 할 수 있다.

CTC(Circulating tumor cell, CTC)는 혈액속에서 떠돌아다니는 순환종양세포로, 전 세계적으로 CTC를 분리하고 분석하여 임상적으로 적용하려는 많은 시도를 하고 있다. 예를 들면, CTC fraction 추정 정확도를 분석하기 위하여 spike cell을 이용한 표준 모델에서 분석된 결과와 연구자 주도 임상에서 확보된 시료에서 CTC 분석 결과와 일치도를 측정할 수 있다. 구체적으로, CTC fraction 추정을 위하여 액체 생검을 통한 혈액에는 백혈구 세포에 비해 CTC의 비율(CTC fraction)이 매우 낮으나 이러한 CTC의 낮은 비율에도 CTC 세포의 수는 재발 또는 전이를 나타내는 예후 마커로 높은 효과를 보이기 때문에 CTC 비율 추정은 CTC WES샘플의 read depth가 CTC 낮은 비율을 커버하여 정확한 SNV 발굴이 되는지의 가능성 여부를 타진 및 SNV 동정을 위해 사용된다. 또한 read depth는 정확한 유전변이 비율 추정에 영향을 주는 것이 잘 알려져 있어, 깊은 시퀸싱 깊이는 양질의 변이를 동정할 수 있으나, 시퀸싱 깊이는 비용에 영향을 주기 때문에 저비용으로 정확한 변이 동정을 하기 위해서는 알고리즘적으로 해결이 필요할 수 있다. 이에 따라, 혈액 내에 존재하는 소량의 혈중암세포를 ex vivo에서 배양함으로 CTC enrichment를 가능할 수 있도록 함으로 NGS 기반 유전체 분석이 용이할 수 있다.

다른 예로는, 폐암 환자의 혈액과 비교하여 유전체 분석을 진행할 수 있다.

실험방법으로는, 일차적으로 정상인의 혈액에 Spike cell을 10개의 세포와 10³세포를 투입한 후, 혈액내의 Spike cell의 수와 CTC의 수와 병행하여 분석함으로 유효성 평가를 진행할 수 있다. 이와 같이, CTC 비율은 변이콜링을 위한 파라미터로 사용되기 때문에 정확한 추정을 위해 액체생검을 지원하기 위한 핵심적인 기술이라 할 수 있다.

도 2는 환자관리시스템의 분석부에서 CTC 분리를 통해 폐암 환자의 혈액과 비교한 그래프이다. 구체적으로, 도 2를 참고하면, 폐암 환자의 혈액에서 CTC 측정 방법을 검증하기 위하여 H147(Small Cell Lung Cancer Cell Line)을 spike cell로 혈액에 일정 수를 투입한 후, CTC가 존재하는 환자의 혈액에서 수와 비교분석을 한 것을 알 수 있다. 결과적으로, 폐암 환자의 혈액에서 CTC 분리기법을 이용하여 분석한 결과, 혈중암세포 1 ml의 혈액에서 CTC의 존재 유무를 분석결과와 비교하였더니, Spike cell의 결과와 일치된 것을 관찰할 수 있었다.

다음으로, 혈액의 CTC 분리 후, FastQC 툴을 이용하여 서열정보를 분석하는 것을 특징으로 할 수 있다.

도 3의 (a)는 혈액의 CTC 분리 후, FastQC 툴을 이용하여 서열정보를 분석한 그래프이고, 도 3의 (b)는 (a)그래프를 보정하여 Overrepresented sequences를 확인한 그래프이다. 도 3을 참고하면, 총 13개의 시료를 대상으로 GC contents distribution을 확인해본 결과, 12개의 시료에서 peak가 double peak 양상을 보이는 것을 확인할 수 있었다.

Overrepresented sequences를 확인한 결과, 일부 시료가 Poly-G 서열을 보유하는 것으로 확인되어 GC contents에서 발견된 peak 수 문제의 원인을 규명하고자 하였다. 구체적으로, high-throughput library에서 0.1% 이상의 높은 비중을 차지하는 서열의 목록을 보여주는 Overrepresented sequences 분석결과 나타난 Poly-G sequence. GC contents의 두 번째 peak의 원인으로 판단할 수 있었다. 이에 따라, 서열 hg19에 대해 trimming 된 결과를 재확인한 결과, ctDNA-088-Li의 경우 그래프가 보정되어 하나의 peak으로 나온 것을 확인할 수 있었다. 이와 같이, 혈액의 CTC 분리 후, FastQC 툴을 이용하여 서열정보를 분석하여 추가적인 분석을 수행할 수 있다.

Baysian분석부(22)는, 원발부위 암과 CTC와의 상관 관련성 분석을 통해 임상적 유의성을 평가할 수 있다. 구체적으로, 확보된 임상시료(혈액)에서 CTC bulk-SNV 변이 그래프 기반 SNV 콜링 알고리즘 및 파이프라인의 정확도와 분석 속도를 측정하기 위해 알고리즘의 정확도와 분석 속도를 측정할 수 있다. CTC는 원발암의 다수지역에서 생성되어 원발암의 이질성 및 유전적 배경을 반영하고 있다. 이러한 원발암 CTC 관계를 Baysian 이론으로 모델링 할 수 있다. 이에 따라, 원발암의 WES에 대해 SNV 콜링 후 유의한 SNV에 대하여 CCF(Cancer Cell Fraction)을 추정하고, 이를 CTC 비율 추정을 위한 prior로 사용할 수 있다.

도 4는 CTC 분리 후, 확률밀도함수로 모델링하여 CTC 비율의 추정을 위한 과정을 나타내는 도면이다. 도 4를 참고하면, 시퀸싱 깊이와 변이형질 빈도의 관계-local copy number와 종양샘플의 purity는 변이 형질의 빈도에 반영되며, 이들은 CTC 비율(CTC fraction)에 반영되며, CTC 비율 분포는 확률밀도함수로 모델링할 수 있음을 알 수 있다. 이에 따라, CTC 비율의 정확한 추정을 위해 ASCN(Allelic Specific Copy Number) 및 종양 purity로 보정할 수 있도록 알고리즘을 설계할 수 있다.

또한, Baysian분석부(22)는 Baysian 모델 기반 CTC-SNV 동정 알고리즘을 사용할 수 있다.

도 5는 베이즈 통계 기반 mixture model 학습을 통한 CTC 비율 추정 및 somatic SNV 동정 개념도이다. 도 5를 참고하면, 원발암 WES와 CTC WES의 component를 매칭하여, 매칭된 component에 속하는 read를 이용해 somatic SNV calling이 진행될 수 있다. 또한, SNV calling의 민감도 향상을 위해 variant calling 알고리즘의 앙상블을 적용할 수 있다. 이에 따라, 원발암의 CCF 분포를 통계적 모형에 따라 검증하고, 결과에 의거하여 Baysian clustering의 클러스터 수 결정하는 파라미터로 사용하여 CTC의 비율이 추정될 수 있다.

ML기반예측분석부(23)는, 연속적인 액체 생검에 대해 전이 및 재발을 예측할 수 있다. 구체적으로, 액체 생검에 기반하여 종양의 진행과정을 최적의 알고리즘이 자동으로 선택되어 처리될 수 있다. 이에 따라, 인공지능 진단 예측 알고리즘으로 개인의 PHR을 기반으로 질병 위험도를 예측하고 그 위험도에 영향을 주는 변수들을 알려줄 수 있다. 이때, 자동으로 선택되는 알고리즘은 ADA Boost, Bernoulli Naive Bayes, Decision Tree, Extra Trees, Gaussian Naive Bayes, Gradient Boosting, Histogra m-based Gradient Boost Tree, Support Vector, K-Nearest Neighbors, Multi-Layered Perceptron, Random Forest, Stochastic Gradient Descent, xGBoost로 이루어진 군에서 하나 이상으로 선택되어 처리될 수 있다. 예를 들면, 기계학습의 두가지 방법인 지도학습과 비지도학습 중에서 지도 학습을 활용할 수 있다. 즉, 답이 있는 상태에서 변수들을 최적화시켜주는 지도 학습을 통해 신뢰도를 높이는 작업을 진행할 수 있다. 예를 들어, 혈압, 혈당, 흡연, 음주와 같은 임상정보, 암유전자의 변이 정보, 심리적 설문지 정보로 학습데이터를 구성하여 데이터베이스를 구축한 뒤, 예측에 정확도를 높일 수 있다. 이에 따라, 암환자의 혈액 샘플과 임상정보가 쌓이면 쌓일수록 그 정확도를 높일 수 있다는 장점이 있다. 이 과정에서 재발 및 전이 형성에 관여하는 변이 유전자의 발견과 임상적 소견과 연계성 분석을 위한 알고리즘이 선택될 수 있다. 또한 기계학습의 예측 및 분류 과정은 해석이 용이하지 않으며, 판단의 근거가 필요한 분야에서는 사용이 어려우므로, 진단 결과에 영향을 준 항목을 추가로 제시하여 처리될 수 있다.

Somatic SNV동정부(24)는, CTC bulk multi-omics 분석 파이프라인을 구축하여 정확도를 검증하고, CTC 시퀀싱 기반 분석이 가능한 구축된 파이프라인의 정확도 검증을 통하여 임상적 유효성 평가를 검증할 수 있다. 구체적으로 암 치료 추적 및 모니터링을 위해 CTC NGS 분석 검증자료에 따라 임상적 유효성 평가를 검증할 수 있다. 예를 들면, CTC WES를 위한 read 기반 phasing 기술, 다수의 SNV가 존재하는 read를 이용하여 haplotype 후보 생성, Phasing 속도와 정확도의 균형을 맞추기 위한 최적의 window 크기 탐색, 실제 haplotype과 오류를 구분하기 위한 통계 모형 구축, Phasing 결과를 이용한 somatic SNV filtering 방법 개발, CTC sometic SNV FDR 제어 기술 개발, False positive somatic SNV 생성과 관련된 feature 선정, 선정된 feature를 이용하여 비감독 기계학습 기반 FDR 제어 모형 구축 등을 사용하여 임상적 유효성 평가를 검증할 수 있다.

예를 들면, 분석 파이프라인을 다양화할 수 있다. 구체적으로, 유전체 데이터 분석 파이프라인을 생식세포(germline) 분석 파이프라인과 체세포(somatic) 분석 파이프라인 두 가지로 분리하고, 체세포 분석은 Normal이 존재하는 체세포분석, Matched Normal이 존재하지 않는 체세포 분석 파이프라인으로 분리하여 표준 분석 파이프라인을 구축할 수 있다. 이에 따라, 다양한 파이프라인을 통해 여러가지 위험 변수를 연산하여, 보다 많은 경우의 수를 분석하여 암의 재발 및 전이 상황에 대해서 예측할 수 있다.

도 6은 GATK calling 파이프라인의 예시를 나타낸 도면이다. 도 6을 참고하면, 국제적으로 검증된 (Nature Protocol, GATK Best Practics 등) 임상 유전체 데이터 분석 기법을 적용하여 유전체 데이터 분석 파이프라인을 구축할 수 있다. 이에 따라, 내용과 범위 설정에 따라 임상 유전체 데이터 분석뿐만 아니라 기타 유전체 데이터 분석에도 적용 가능할 수 있다.

CTC패널예측분석부(25)는, 액체 생검을 기반으로 하여 임상적 유효성 평가를 진행할 수 있다. 예를 들면, NGS 기반 액체 생검 유전체 분석 알고리즘을 이용하여 폐암 환자의 CTC를 이용하여 확보된 somatic mutation을 중심으로 Anticancer drugable target somatic mutation을 알아낼 수 있으며, 이를 통해 임상시험을 진행할 수 있다. 이에 따라, 확보된 유전체 변이의 변화를 이용하여 CTC fraction 분석 및 암의 재발 및 전이를 예측할 수 있다. 또한, Panel에서 확보된 somatic mutation의 유의성 분석을 위하여 Somatic mutation이 확보된 결과와 Kinase profiling 결과와의 관련성을 분석함으로써 임상적 유의성을 규명할 수 있다.

개인유전체DB수집부(26)는, 액체생검을 기반으로 분석하기 위해 수집된 원발암-CTC 유전체 정보 및 기타 개인 유전체 정보의 데이터베이스를 구축할 수 있다. 또한 추가적으로 Single cell 데이터까지 수집될 수 있다. 구체적으로, 분석 및 수집된 CTC 다중오믹스(multi-omics) 데이터(원발암-CTC의 RNA-seq, ChIP-seq 데이터 등)를 집적하여 개인 유전체 데이터베이스를 구축할 수 있다. 또한, SNV/변이 검출 알고리즘을 이용해 분석해 얻은 SNV, CNV, SV catalog를 수집하고, 3세부에서 원발암과 CTC의 WES 비가공 데이터를 집적하여 데이터베이스화 할 수 있다. 이에 따라, 환자의 유전체 정보를 최종적으로 수집하고, 전이 및 재발을 예측할 수 있는 연산과정을 통해 환자의 암 전이, 재발 진행 상황을 미리 예측 가능할 수 있다.

분류부(30)는, 분석부(20)를 통해 산출된 데이터 중, 관찰기간동안 암의 재발이나 전이상태의 변화가 생긴 환자의 데이터를 별도로 구분할 수 있다. 예를 들면, 분석부(20)에서 환자의 유전체 및 임상데이터를 기반으로 여러 분석방법을 통해 암의 재발이나 전이상태에 변화가 있는 것으로 연산이 되면, 일반 환자들의 데이터와는 별도로 분류되어 저장될 수 있다. 이에 따라, 별도로 분류되어 저장된 환자의 데이터는 관찰기간의 주기가 자동으로 더 짧게 설정되며, 이를 통해 분석을 재연산하여 검증하거나, 환자에게 해당 사실을 전달하기 위해 출력부(40)로 빠르게 이동될 수 있다.

출력부(40)는, 분류부(30)로부터 별도로 구분된 환자에게 암의 진행상황이나 맞춤 항암제를 처방하여 해당 정보를 전달할 수 있다. 예를 들면, 암이 재발이나 전이가 예측되는 환자에게 분석을 통해 정리된 리포트가 제공될 수 있다. 구체적으로, 환자가 혈액 샘플을 제출한 병원에 제공될 수 있다. 이에 따라, 리포트를 제공받은 병원은 실시간으로 환자의 암 재발 및 전이 상황을 파악하여 재발 및 전이가 예측되는 경우, 정밀 진단을 권유할 수 있다. 이를 통해, 환자에게 보다 우수한 의료 서비스를 제공할 수 있다. 예를 들면 6개월 단위가 아닌 매달 병원을 방문하여 재발 및 전이 여부를 확인하게 하고, 5분 정도의 상담이 아닌 30분에서 한 시간 정도의 충분한 진료 및 상담을 통해서 암의 재발 및 전이 위험도에 대한 충분한 정보를 환자에게 제공할 수 있다. 이를 통해 환자의 불안감과 이에 따른 문제점을 해소할 수 있으며, 재발이나 전이상황에 따라 보다 빠르게 대처할 수 있다.

또한, 암이 다시 재발하거나 다른 장기로 전이되었다고 하더라도, 암이 재발하였는지의 여부 및 암이 전이되었는지 여부를 추가로 검진하면서 분석한 유전체 변이와 임상 정보를 바탕으로, 재발된 환자에게 맞는 적절한 표적 항암제를 사전에 선별하여 항암 치료를 위한 가이드 라인을 제공할 수 있다. 이를 통해 암환자의 생존율을 높일 수 있다.

이상에서 본 발명의 실시예에 대하여 설명하였으나, 본 발명의 사상은 본 명세서에 제시되는 실시 예에 제한되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서, 구성요소의 부가, 변경, 삭제, 추가 등에 의해서 다른 실시 예를 용이하게 제안할 수 있을 것이나, 이 또한 본 발명의 사상범위 내에 든다고 할 것이다.

100: 환자관리시스템
10: 저장부 11: 환자정보저장부
12: 혈액정보저장부 13: 임상정보저장부
20: 분석부 21: CTC분리부
22: Baysian분석부 23: ML기반예측분석부
24: Somatic SNV분석부 25: CTC패널예측분석부
26: 개인유전체DB수집부 30: 분류부
40: 출력부

Claims

환자의 임상정보를 포함한 유전체 정보를 데이터로 저장하는 저장부;
상기 저장부에 저장된 상기 데이터의 특성을 임상정보를 기반으로 분석하는 분석부;
상기 분석부를 통해 산출된 상기 데이터 중, 관찰기간동안 암의 재발이나 전이상태의 변화가 생긴 환자의 상기 데이터를 별도로 구분하는 분류부; 및
상기 분류부로부터 별도로 구분된 상기 환자에게 암의 진행상황이나 맞춤 항암제를 처방하여 해당 정보를 전달하는 출력부를 포함하는 환자관리시스템.
제1 항에 있어서,
상기 분석부는,
액체 생검에 기반하여 종양의 진행과정을 최적의 알고리즘이 자동으로 선택되어 처리되는 것을 특징으로 하는 환자관리시스템.
제2 항에 있어서,
상기 알고리즘은,
ADA Boost, Bernoulli Naive Bayes, Decision Tree, Extra Trees, Gaussian Naive Bayes, Gradient Boosting, Histogra m-based Gradient Boost Tree, Support Vector, K-Nearest Neighbors, Multi-Layered Perceptron, Random Forest, Stochastic Gradient Descent, xGBoost로 이루어진 군에서 하나 이상으로 선택되어
처리되는 것을 특징으로 하는 환자관리시스템.
제1 항에 있어서,
상기 분석부는,
혈액의 CTC 분리를 통해 암의 재발 및 전이를 판단하는 마커로 사용하는 것을 특징으로 하는 환자관리시스템.
제4 항에 있어서,
상기 혈액의 CTC 분리 후, FastQC 툴을 이용하여 서열정보를 분석하는 것을 특징으로 하는 환자관리시스템.