WO2021071181A1

WO2021071181A1 - 면역항암제에 대한 저항성을 예측하는 방법 및 분석장치

Info

Publication number: WO2021071181A1
Application number: PCT/KR2020/013463
Authority: WO
Inventors: 최정균; 김권일
Original assignee: 한국과학기술원
Priority date: 2019-10-07
Filing date: 2020-10-05
Publication date: 2021-04-15
Also published as: KR102182091B1

Abstract

면역항암제에 대한 저항성을 예측하는 방법은 분석장치가 샘플의 유전체 데이터를 입력받는 단계, 상기 분석장치가 상기 유전체 데이터를 사전에 학습된 분류기(classifier)에 입력하는 단계 및 상기 분석장치가 상기 분류기의 출력 정보를 기준으로 상기 샘플에 대한 면역항암제의 저항성을 예측하는 단계를 포함한다. 상기 분류기는 암(tumor)이 유발하는 기능적 돌연변이(functional mutation) 연관 서열의 특징을 기준으로 면역항암제의 저항성을 예측한다.

Description

면역항암제에 대한 저항성을 예측하는 방법 및 분석장치

이하 설명하는 기술은 면역함암제에 대한 저항성을 예측하는 기법에 관한 것이다.

면역항암제(cancer immunotherapy)는 암 자체를 공격하는 기존 항암제와는 달리 인공면역 단백질을 체내에 주입하여 면역체계를 자극함으로써 면역세포가 선택적으로 암세포만을 공격하도록 유도하는 치료약제이다. 면역항암제에는 면역관문억제제(CTLA4 억제제, PD-1 억제제, PD-L1 억제제), 면역세포치료제, 면역바이러스치료제 등이 있다.

암 세포는 면역세포의 면역관문을 이용하여 면역을 회피한다. 면역관문억제제(immune checkpoint inhibitor)는 면역관문을 억제하여 체내 면역세포의 활성으로 암 세포를 사멸한다. 그러나, 면역관문억제제는 모든 환자에 대해 반응성을 나타내는 것이 아니다. 따라서, 면역항암치료에 대한 반응성을 예측할 수 있는 바이오마커 발굴이 중요하다.

종양변이부담(tumor mutation burden: TMB)은 면역항암치료에 대한 반응성을 예측하는 대표적인 바이오마커이다. TMB가 높으면 신항원(neoantigen)의 에피토프가 T 세포에 잘 인식되어 면역항암치료에 대한 반응성이 좋다고 알려져 있다. 그러나, 암 세포 돌연변이의 상당 부분이 면역원성이 아니며, 증가된 기능적 돌연변이(functional mutation)가 치료에 대한 저항성을 유발하기도 한다.

이하 설명하는 기술은 면역항암제(면역관문억제제)의 저항성을 예측하는 기법을 제공하고자 한다. 또한, 이하 설명하는 기술은 면역항암제의 저항성을 예측하는 마커를 발굴하는 기법을 제공하고자 한다.

다른 측면에서 면역항암제에 대한 저항성을 예측하는 마커를 검출하는 방법은 분석장치가 샘플의 유전체 데이터를 입력받는 단계, 상기 분석장치가 상기 유전체 데이터를 사전에 학습된 분류기(classifier)에 입력하는 단계 및 상기 분류기의 출력 정보를 기준으로 면역항암제에 대한 저항성을 판단할 수 있는 마커를 결정하는 단계를 포함한다. 상기 분류기는 종양이 유발하는 기능적 돌연변이(functional mutation) 연관 서열의 특징을 기준으로 면역항암제의 저항성을 예측한다.

또 다른 측면에서 면역항암제에 대한 저항성을 예측하는 분석장치는 샘플의 유전체 데이터를 입력받는 입력장치, 종양이 유발하는 기능적 돌연변이(functional mutation) 연관 서열의 특징을 기준으로 면역항암제의 저항성을 예측하는 분류기(classifier)를 저장하는 저장장치 및 상기 유전체 데이터를 상기 분류기에 입력하여 상기 샘플에 대한 면역항암제의 저항성을 예측하는 연산장치를 포함한다.

이하 설명하는 기술은 학습모델을 사용하여 특정 환자의 면역항암제에 대한 저항성을 빠르게 예측할 수 있다. 따라서, 이하 설명하는 기술은 환자별 맞춤 진료에 기여할 수 있다. 나아가, 이하 설명하는 기술은 특정 질환 또는 특정 코호트(cohort)를 대상으로 면역항암제에 대한 저항성을 예측하는 마커를 발굴하여 맞춤형 치료에 기여할 수 있다.

도 1은 면역항암제에 대한 저항성을 예측하는 시스템에 대한 예이다.

도 2는 면역항암제 저항성을 예측하는 모델을 훈련하는 과정에 대한 예이다.

도 3은 면역항암제 저항성을 예측하는 과정에 대한 예이다.

도 4는 면역항암제 저항성을 판단하는 마커를 발굴하는 과정에 대한 예이다.

도 5는 면역항암제에 대한 저항성을 예측하는 분석장치의 구조에 대한 예이다.

도 6은 면역항암제 저항성을 예측하는 모델을 평가한 결과이다.

이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.

또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

이하 설명에서 사용되는 용어에 대하여 설명한다.

항원은 면역 반응을 유도하는 물질이다.

신항원(neoantigen)은 종양 세포에서의 돌연변이 또는 종양 세포에 특이적인 번역 후 변형을 통해 발생하는 변경을 갖는 항원이다. 신항원은 폴리펩티드 서열 또는 뉴클레오티드 서열을 포함할 수 있다. 돌연변이는 프레임 이동 또는 비-격자 이동 인델(indel), 미스센스(missense) 또는 넌센스 (nonsense) 치환, 스플라이스 부위 변경, 게놈 재배열 또는 유전자 융합, 또는 신생 ORF를 야기하는 임의의 게놈 또는 발현 변경을 포함할 수 있다. 돌연변이는 스플라이스 변이(splice variant)도 포함할 수 있다. 종양 세포에 특이적인 번역 후 변형은 비정상적인 인산화를 포함할 수 있다. 종양 세포에 특이적인 번역 후 변형은 또한 프로테아솜-생성된 스플라이싱된 항원을 포함할 수 있다.

엑솜(exome)은 단백질을 암호화하는 게놈의 서브셋이다. 엑솜(exome)은 세포, 세포 그룹 또는 개체에 존재하는 엑손(exon)들의 집합을 지칭할 수 있다.

에피토프(epitope)는 항체 또는 T-세포 수용체가 통상 결합하는 항원의 특이적인 부분을 지칭할 수 있다.

면역원성(immunogenic)은 T 세포, B 세포 또는 둘 모두를 통해 면역 반응을 유도할 수 있는 능력이다.

내성(tolerance), 면역 내성(immune tolerance), 또는 저항성(resistance)은 하나 이상의 항원에 대한 면역 비-반응성 상태이다.

시료 내지 샘플(sample)은 분석 대상이 되는 개체에서 채취한 단일 세포 또는 다중 세포, 세포 단편, 체액 등을 의미한다.

개체(subject)는 세포, 조직 또는 유기체를 포함한다. 개체는 기본적으로 인간을 대상으로 하지만, 이에 한정되지 않는다.

유전체 데이터 내지 유전체 정보는 샘플을 분석하여 산출되는 유전 정보를 의미한다. 예컨대, 유전체 데이터는 세포, 조직 등으로부터 데옥시리보 핵산(DNA), 리보핵산(RNA), 또는 단백질(Protein) 등에서 얻어진 염기서열, 유전자 발현 데이터, 표준 유전체 데이터와의 유전 변이, DNA 메틸화(methylation) 등을 포함할 수 있다. 일반적으로 유전체 데이터는 특정 시료를 분석하여 얻은 서열 정보를 포함한다. 유전체 데이터는 다양한 방식으로 획득될 수 있다. 예컨대, NGS 분석을 통해 유전체 데이터를 생성할 수 있다. 유전체 데이터는 컴퓨터가 이해하는 디지털 데이터로 표현될 수 있다.

기계 학습(machine learning) 또는 학습은 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 알고리즘을 개발하는 분야를 의미한다. 기계학습모델 또는 학습모델은 컴퓨터가 학습할 수 있도록 개발된 모델을 의미한다. 학습모델은 접근 방법에 따라 인공신경망, 결정 트리 등과 같은 다양한 모델이 있다.

앙상블 기법(Ensemble)은 기계 학습에서 복수의 학습 알고리즘을 이용하는 기법을 총칭한다. 대표적으로 앙상블 기법은 랜덤 포레스트(Random Forest)를 포함한 배깅(bagging) 기법이나 부스팅(boosting) 기법 등이 있다.

랜덤 포레스트는 CART의 의사 결정 트리의 조합으로 이루어진 배깅(bagging) 알고리즘의 일종이다. 랜덤 포레스트는 복수의 의사 결정 트리로 구성된다. 복수의 의사 결정 트리는 각각 훈련 데이터와 특징 변수 중 일부를 무작위로 선택하여 사전에 학습된다. 랜덤 포레스트는 각각의 트리는 개별적으로 목표 변수를 결정한 후 모든 트리의 결정을 취합해 최종 결정을 내린다.

도 1은 면역항암제에 대한 저항성을 예측하는 시스템(100)에 대한 예이다. 분석장치가 면역항암제에 대한 저항성을 예측한다. 도 1에서 분석장치는 서버(130) 및 컴퓨터 단말(140) 형태로 도시하였다. 서버(130)는 네트워크상에서 면역항암제에 대한 저항성을 예측하는 서비스를 제공할 수 있다. 컴퓨터 단말(140)은 네트워크에 연결되어 또는 개별 장치로 유전체 데이터를 분석하여 면역항암제에 대한 저항성을 예측할 수 있다. 분석장치(130, 140)는 다양한 형태로 구현될 수 있다.

분석장치(130, 140)는 유전체 데이터를 이용하여 면역항암제에 대한 저항성을 분석한다. 여기서, 유전체 데이터는 유전체 서열에 대한 정보를 포함한다. 유전체 분석장치(110)는 시료를 분석하여 유전체 데이터를 생성한다. 예컨대, 유전체 분석장치(110)는 NGS 분석장치일 수 있다. 유전체 분석장치(110)는 생성한 유전체 데이터를 별도의 DB(120)에 저장할 수도 있다.

유전체 분석장치(110)는 유전체 라이브러리를 이용하여 유전체 데이터를 생성한다. 유전체 분석장치(110)는 유전체 라이브러리에 대한 엑솜 서열 검사(whole exome sequencing)를 수행할 수 있다. 유전체 라이브러리는 상용 키트를 사용하여 준비될 수 있다. 예컨대, AllPrep DNA/RNA Mini Kit (Qiagen, 80204), AllPrep DNA/RNA Micro Kit (Qiagen, 80284), 또는 QIAamp DNA FFPE Tissue Kit (Qiagen, 56404) 등을 사용하여 서열 분석을 위한 유전체 라이브러리를 생성할 수 있다.

사용자(10, 20)는 특정 환자에 대한 면역항암제에 대한 저항성 결과를 확인할 수 있다. 사용자(10)는 사용자 단말(PC, 스마트폰 등)을 통해 서버(130)에 접속하여, 서버(130)가 수행한 분석 결과를 확인할 수 있다. 사용자(20)는 자신이 사용하는 컴퓨터 단말(140)을 통해 면역항암제에 대한 저항성 결과를 확인할 수 있다.

사용자(10, 20)는 면역항암제에 대한 저항성 평가를 수행하는 연구자일 수 있다. 또는 사용자(10, 20)는 특정 환자에 대한 면역항암제 처방을 고려하는 의료진일 수도 있다.

분석장치(130, 140)는 유전체 데이터 분석을 통해 면역항암제 저항성을 예측한다. 분석장치(130, 140)는 사전에 마련된 학습 모델을 이용하여 면역항암제 저항성을 예측한다. 분석장치(130, 140)는 다양한 학습 모델을 이용할 수 있다. 예컨대, 분석장치(130, 140)는 앙상블 기법을 이용하여 면역항암제 저항성을 분석할 수 있다. 이하 설명의 편의를 위하여, 분석장치(130, 140)가 랜덤 포레스트 모델을 사용하여 면역항암제 저항성을 분석한다고 가정한다.

분석장치(130, 140)가 사용하는 학습 모델은 사전에 마련되어야 한다. 도 2는 면역항암제 저항성을 예측하는 모델을 훈련하는 과정(200)에 대한 예이다. 학습 모델은 사전에 마련된 훈련 데이터를 이용하여 훈련된다.

암 환자 코호트는 복수의 환자의 유전체 데이터를 포함한다. 최초 암 환자 코호트가 모집단에 해당한다. 이제 몇 가지 기준으로 훈련 데이터를 선별할 수 있다. 최초 모집단에서 일정한 기준을 갖는 그룹을 선택하는 과정을 반복하면서, 훈련 데이터를 선별할 수 있다. 일정한 기준으로 모집단을 필터링하는 과정은 순서에 관계 없다.

훈련 데이터를 선별하는 몇 가지 기준에 대하여 설명한다. (i) TMB의 양이 기준이 될 수 있다. 즉, 모집단에서 기준값보다 많은 TMB를 갖는 개체를 선택할 수 있다. (ii) 암 세포가 생성한 신항원 개수가 기준이 될 수 있다. 즉, 모집단에서 신항원의 개수가 기준값보다 많은 개체를 선택할 수 있다. (iii) 기능적 돌연변이가 기준이 될 수 있다. 즉, 모집단에서 기능적 돌연변이의 정도가 기준값 이상인 개체가 선택될 수 있다. 한편, 기능적 돌연변이는 다양한 알고리즘으로 평가될 수 있다.

예컨대, 기능적 돌연변이는 돌연변이가 발생한 서열이 단백질 기능에 영향을 주는 정도로 평가할 수 있다. 돌연변이가 연관 단백질의 기능에 영향을 주는 정도는 몇 가지 솔루션 내지 알고리즘을 이용하여 측정될 수도 있다. 몇 가지 예를 설명한다.

(i) SIFT(Sorting Intolerant From Tolerant, https://sift.bii.a-star.edu.sg/)는 아미노산의 대체가 단백질 기능에 영향을 주는 정도를 정량한다. SIFT 점수는 돌연변이가 단백질 기능에 영향을 주는 정도를 정량한 값이다. (ii) PROVEAN(Protein Variation Effect Analyzer, http://provean.jcvi.org)은 아미노산 대체 또는 삭제(indel)가 단백질의 기능에 영향을 주는 정도를 정량한다. PROVEAN 점수는 돌연변이가 단백질 기능에 영향을 주는 정도를 정량한 값이다.

분석대상 집단에 대하여 SIFT 점수가 기준값 이상이고, 동시에 PROVEAN 점수가 기준값 이상인 경우, 해당 개체는 기능적 돌연변이가 임계값 이상이라고 판단될 수 있다.

한편, 훈련 데이터 선별을 위하여 임상 데이터를 활용할 수도 있다. 이 경우 모집단을 구성하는 개체에 대한 임상 데이터를 전제로 한다. 임상 데이터는 실제 면역항암제에 대한 저항성을 갖고 있는지 여부에 대한 정보를 포함한다. 예컨대, 모집단에서 임상데이터를 기준으로 면역항암제에 대한 저항성을 갖는 개체를 선택하여 훈련 데이터를 필터링할 수 있다.

도 2를 기준으로, 훈련 데이터를 선별하는 과정을 설명한다. 훈련 데이터 선별이나 학습 과정은 분석 장치 또는 별도의 컴퓨터 장치가 수행할 수 있다. 훈련 데이터 선별 내지 학습을 수행하는 장치를 학습 장치라고 명명한다.

학습 장치는 분석하고자 하는 암 환자 코호트를 획득한다(210). 학습 장치는 암 환자 코호트를 대상으로 신항원 개수가 기준값 이상인 개체의 데이터 집합을 선별할 수 있다(220). 예컨대, 신항원의 개수가 70개 보다 많은 데이터 집합을 선별할 수 있다. 학습 장치는 선별한 집합에서 기능적 돌연변이의 정도가 기준값 이상인 훈련 데이터를 선별할 수 있다(230). 최종적으로 학습 장치는 마련된 훈련 데이터를 이용하여 랜덤 포레스트 모델을 학습한다(240).

훈련 데이터를 선별하는 과정(230)에 대하여 추가 설명한다. 학습 장치는 학습을 위한 모집단 데이터(유전체 데이터)에서 돌연변이 세트를 선별한다. 학습 장치는 돌연변이 세트의 각 돌연변이에 대하여 단백질 기능에 영향을 주는 정도를 결정한다. 전술한 바와 같이 학습 장치는 돌연변이가 단백질 기능에 영향을 주는 정도를 정량하는 점수를 연산할 수 있다. 예컨대, 기능적 돌연변이 정도는 SIFT 점수 및 PROVEAN 점수를 기준으로 판별할 수 있다. 이 과정을 거치면 학습 장치는 훈련 데이터 중 입력 데이터 세트를 확보하게 된다.

학습 모델은 양성(positive) 훈련 데이터 및 음성(negative) 훈련 데이터를 이용하여 마련될 수 있다. 훈련 데이터는 복수의 개체에 대한 유전체 데이터를 포함한다. 암 환자 코호트의 데이터는 해당 환자가 양성인지 음성인지에 대한 정보를 포함한다. 즉, 훈려 데이터는 라벨값을 포함한다. 따라서, 양성 훈련 데이터는 양성 훈련 데이터군이고, 음성 훈련 데이터는 음성 훈련 데이터 군에 해당한다. 예컨대, 음성 훈련 데이터군은 모집단에서 양성 훈련 데이터군을 제외한 훈련 데이터들로 구성된다.

학습 장치는 돌연변이가 단백질 기능에 영향을 주는 정도에 따라 입력 데이터 세트를 선별하고, 선별한 입력 데이터 세트에 대한 라벨값을 기준으로 학습 모델을 훈련하게 된다. 도 2는 암 환자 코호트에서 신항원의 개수가 기준값 이상이고, 기능적 돌연변이의 정도가 기준값 이상인 데이터를 양성 훈련 데이터군으로 선별한 예이다.

랜덤 포레스트 모델은 훈련 데이터에 포함된 복수의 개체에 대한 유전체 데이터를 학습할 수 있다. 랜덤 포레스트를 구성하는 복수의 의사 결정 트리는 각각 임의로 훈련 데이터를 선택하고, 임의로 특징 변수를 선택하여 학습된다.

랜덤 포레스트가 학습되는 특징 변수는 유전체 서열 중 돌연변이가 발생한 서열일 수 있다. 즉, 랜덤 포레스트는 전체 서열을 이용하지 않고, 면역항암제 저항성과 관련성 높은 특정 서열 구간을 이용하여 학습될 수 있다. 랜덤 포레스트 학습을 위하여 유전체 서열은 일정한 벡터 형태의 정보로 사전에 변환될 수 있다.

도 3은 면역항암제 저항성을 예측하는 과정(300)에 대한 예이다. 도 3은 분석장치가 사전에 훈련한 학습 모델을 이용하여 면역항암제 저항성을 예측하는 예이다. 분석장치는 특정 환자에 대하여 면역항암제 효과를 사전에 예측한다.

분석장치는 샘플의 유전체 데이터를 입력받는다(310). 샘플은 면역항암제 저항성을 판단하고자 하는 개체(환자)를 의미한다. 샘플 유전체 데이터는 분석 대상인 환자의 유전체 데이터를 말한다.

분석장치는 사전에 학습된 모델에 샘플 유전체 데이터를 입력한다. 학습 모델은 샘플 유전체 데이터를 분석한다(320). 도 3은 랜덤 포레스트 모델을 예시한다. 랜덤 포레스트를 구성하는 의사 결정 트리는 각각 입력 데이터를 시작으로 의사 결정을 하면서 최종적인 판단 결과를 출력한다. 도 3을 살펴보면, 의사 결정 트리 A는 저항성이 높음(High)이라는 결과를 출력하고, 의사 결정 트리 B는 저항성이 낮음(Low)이라는 결과를 출력한다. 랜덤 포레스트는 각 의사 결정 트리의 출력 결과를 모두 고려하여 최종적인 판단을 수행한다. 예컨대, 랜덤 포레스트는 다수결 원칙에 따라 최종 결론을 결정할 수 있다. 분석장치는 랜덤 포레스트가 출력하는 정보를 기준으로 샘플에 대한 면역항암제 저항성을 예측한다(330). 예컨대, 분석장치는 해당 환자의 면역항암제 저항성이 높다라는 정보를 출력할 수 있다. 학습 모델은 샘플에 대한 저항성을 분류하는 기능을 수행하여 분류기(classifier)라고 할 수 있다.

도 4는 면역항암제 저항성을 판단하는 마커를 발굴하는 과정(400)에 대한 예이다. 바이오마커는 특정 환자 코호트 또는 특정 환자에 대해서 개별적으로 결정될 수 있다.

분석장치는 샘플 유전체 데이터를 입력받는다(410). 분석장치는 학습모델(분류기)에 샘플 유전체 데이터를 입력하여 면역항암제 저항성이 높은 후보 데이터를 선별한다(420).

분석장치는 후보 데이터를 대상으로 변수 중요도(variable importance)를 기준으로 후보 유전자를 검출할 수 있다(430). 변수 중요도는 특정 변수가 학습모델의 분석 결과에 미치는 영향을 정량한 값이다.

전술한 바와 같이, 분석 장치는 유전체 데이터에서 돌연변이 서열을 변수로 삼을 수 있다. 이 경우, 변수 중요도는 특정 서열의 구성을 변경하고, 변경된 특정 서열을 포함한 데이터를 학습모델에 입력한 결과를 기준으로 결정될 수 있다. 예컨대, 분석 장치는 특정 변수인 서열을 임의의 순서로 변경(random permutation)하고, 특정 변수 또는 특정 변수를 포함하는 입력 데이터를 학습모델에 입력한다. 변경된 변수를 포함하는 샘플 유전체 데이터를 가공된 샘플 유전체 데이터라고 명명한다.

가공된 샘플 유전체 데이터를 분류기에 입력하면 원본 샘플 유전체 데이터를 학습모델에 입력한 경우와 비교하여 출력되는 결과가 달라질 수 있다. 원본 샘플 유전체 데이터는 임의로 서열의 순서를 변경하지 않은 샘플 유전체 데이터를 의미한다. 이때, 예측 정확도가 달라지는 정도가 변수 중요도이다. 다양한 기준으로 변수 중요도를 정량할 수 있다. 랜덤 포레스트 경우 복수의 의사 결정 트리를 기준으로 변수 중요도를 산출할 수 있다.

예컨대, 복수의 의사 결정 트리가 원본 샘플 유전체 데이터를 입력받은 경우와 가공된 샘플 유전체 데이터를 입력받는 경우 출력 결과가 달라질 수 있다. 이때 출력 결과가 달라진 의사 결정 트리의 개수가 변수 중요도를 결정하는 기준이 될 수 있다. 예컨대, 출력 결과가 달라진 의사 결정 트리의 개수가 3개 이상인 경우, 해당 변수의 변수 중요도가 높다고 판단할 수 있다. 이 경우, 분석장치는 해당 변수(서열)를 후보 유전자로 검출할 수 있다(430).

분석 장치나 연구자는 후보 유전자를 면역항암제의 저항성을 식별하는 마커로 결정할 수 있다.

나아가, 후보 유전자와 연관된 단백질에 대한 상호 작용체(interactome) 분석을 더 수행하여, 분석 장치 또는 연구자가 후보 유전자를 결정할 수도 있다. 연관된 단백질은 후보 유전자가 영향을 미치는 단백질, 후보 유전자가 번역(translation)되어 생성되는 단백질 등을 의미한다. 분석 장치는 연관된 단백질의 상호 작용체 분석을 통해 연관된 단백질이 어떤 기작 경로에 영향을 미치는지 확인할 수 있다. 분석 장치는 연관된 단백질이 면역항암제 저항성 발현에 영향을 미치는 경우 해당 후보 유전자를 마커로 결정할 수 있다. 또는 분석 장치는 연관된 단백질이 암 발생에 영향을 주는 경우 해당 후보 유전자를 마커로 결정할 수 있다.

도 5는 면역항암제에 대한 저항성을 예측하는 분석장치(500)의 구조에 대한 예이다. 분석장치(500)는 도 1의 분석 장치(130 또는 140)에 해당하는 장치이다.

분석장치(500)는 전술한 학습 모델을 이용하여 면역암항제의 저항성을 예측할 수 있다. 분석장치(500)는 물리적으로 다양한 형태로 구현될 수 있다. 예컨대, 분석장치(500)는 PC와 같은 컴퓨터 장치, 네트워크의 서버, 영상 처리 전용 칩셋 등의 형태를 가질 수 있다. 컴퓨터 장치는 스마트 기기 등과 같은 모바일 기기를 포함할 수 있다.

분석장치(500)는 저장장치(510), 메모리(520), 연산장치(530), 인터페이스 장치(540), 통신장치(550) 및 출력장치(560)를 포함한다.

저장장치(510)는 면역암항제의 저항성을 예측하는 분류기를 저장한다. 분류기는 사전에 학습되어야 한다. 나아가 저장장치(510)는 데이터 처리에 필요한 프로그램 내지 소스 코드 등을 저장할 수 있다. 저장장치(510)는 입력되는 유전체 데이터 및 예측된 저항성에 대한 데이터를 저장할 수 있다.

메모리(520)는 분석장치(500)가 수신한 데이터를 분석하는 과정에서 생성되는 데이터 및 정보 등을 저장할 수 있다.

인터페이스 장치(540)는 외부로부터 일정한 명령 및 데이터를 입력받는 장치이다. 인터페이스 장치(540)는 물리적으로 연결된 입력 장치 또는 외부 저장장치로부터 유전체 데이터를 입력받을 수 있다. 인터페이스 장치(540)는 데이터 분석을 위한 학습모델을 입력받을 수 있다. 인터페이스 장치(540)는 학습모델 훈련을 위한 학습데이터, 정보 및 파라미터값을 입력받을 수도 있다.

통신장치(550)는 유선 또는 무선 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신장치(550)는 외부 객체로부터 유전체 데이터를 수신할 수 있다. 통신장치(550)는 모델 학습을 위한 데이터도 수신할 수 있다. 통신장치(550)는 입력된 샘플에 대하여 결정된 면역항암제 저항성에 대한 정보를 외부 객체로 송신할 수 있다.

통신장치(550) 내지 인터페이스 장치(540)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신장치(550) 내지 인터페이스 장치(540)를 입력장치라고 명명할 수 있다.

출력장치(560)는 일정한 정보를 출력하는 장치이다. 출력장치(560)는 데이터 처리 과정에 필요한 인터페이스, 분석 결과 등을 출력할 수 있다.

연산 장치(530)는 저장장치(510)에 저장된 분류기를 이용하여 입력되는 샘플 유전체 데이터에 대한 면역항암제 저항성을 예측할 수 있다. 연산 장치(530)는 분류기가 출력하는 결과를 직접 또는 일정하게 가공하여 면역항암제에 대한 저항성을 예측할 수 있다. 연산 장치(530)는 주어진 훈련 데이터를 이용하여 면역항암제 저항성을 예측에 사용되는 학습모델을 훈련할 수도 있다. 연산 장치(530)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.

이하 연구자가 전술한 면역항암제 저항성을 예측하는 모델을 생성한 과정 및 효과에 대하여 설명한다.

코호트 이름	참고문헌	종양 유형	코호트 크기	타겟 면역관문
SMC		폐암	122	PD-1/PD-L1
Rizvi	Science 348:124	폐암	34	PD-1
Hellmann	Cancer Cell 33:843	폐암	75	PD-1 & CTLA-4
Van Allen	Science 350:207	흑색종	110	CTLA-4
Snyder	NEJM 371:2189	흑색종	64	CTLA-4
Roh	Sci. Transl. Med. 9:eaah3560	흑색종	56	PD-1 & CTLA-4
Riaz	Cell 171:934	흑색종	68	PD-1

표 1은 실험 및 개발 과정에서 사용된 코호트를 나타낸다. SMC 코호트를 제외한 코호트는 종래 연구에서 사용된 코호트이다.

SMC 코호트는 국내 병원에서 제공받은 데이터이다. 구체적인 정보는 다음과 같다. 병원에서 2014 년부터 2017 년까지 항 PD-1/PD-L1으로 치료받은 122 명의 진행성 비소세포폐암 환자를 대상으로 하였다. 임상 반응은 RECIST(Response Evaluation Criteria in Solid Tumours) 버전 1.1의 응답 평가 기준에 의해 최소 6개월간의 추적 관찰을 통해 평가하였다. 면역치료에 대한 반응은 반응성(지속된 임상 이익, durable clinical benefit: DCB)) 또는 비반응성(비지속된 임상 이익, non-durable benefit: NDB)으로 분류하였다. 부분 반응성(Partial response: PR) 또는 안정된 질병(stable disease: SD) 또는 6개월 이상 지속된 환자는 DCB/반응성으로 간주되었다. 6개월 미만 지속된 진행성 질환(Progressive disease: PD) 또는 SD는 NDB/비반응성으로 간주되었다. 무진행 생존율 (Progression-free survival: PFS)은 치료 시작일부터 진행일 또는 사망일 중 빠른 날짜까지 계산하였다. 환자가 살아 있다면 PFS에 대한 마지막 추적 관찰 날짜에 평가 하였다.

모든 시료에 대하여 돌연변이를 검토하였다. 기능적 돌연변이는 SIFT 및 PROVEAN으로 평가하였다. 기능적 돌연변이는 SIFT에 의해 피해입은 것(damaging)으로 분류되고, 동시에 PROVEAN에 의해 결실된 것(deleterious)으로 분류된 상태로 정의하였다.

훈련 데이터에서 5% 보다 높은 돌연변이 빈도를 갖는 유전자의 돌연변이를 특징 내지 변수로 선택하여 랜덤 포레스트를 학습하였다. 랜덤 포레스트는 1000개의 결정 트리로 구성하였다. 랜덤 포레스트 R 패키지를 5-fold cross validation을 10회 반복하여 랜덤 포레스트를 학습하였다.

또한, 동일한 유전자 세트 상에서 동의(synonymous) 돌연변이의 상태를 이용하여 저항성 예측 모델과 동일한 방법으로 학습시켜 음성 대조군 학습 모델을 생성하였다. 음성 대조군 학습 모델은 저항성 예측 모델과 동일한 특징 개수를 사용하였다.

동일한 암의 경우 하나의 코호트 제외하고, 나머지 코호트를 통합하여 모델을 훈련하였다. 제외한 하나의 코호트는 테스트 데이터로 사용하였다. 즉 하나의 코호트를 입력 데이터로 삼아 훈련된 모델을 이용하여 결과를 살펴보았다.

도 6은 면역항암제 저항성을 예측하는 모델을 평가한 결과이다. 붉은색 커브는 결실/피해 돌연변이에 대한 ROC(receiver operating characteristic) 커브이다. 파란색 커브는 음성 대조군인 동의 돌연변이에 대한 ROC 커브이다. AUC(area under the curve)는 ROC 커브의 아래 면적을 뜻하며 1일때 이상적인 모델이다.

도 6(A)는 흑색종(melanoma) 코호트에 대한 평가 결과이다. 각 그래프에서 상단에 표시한 코호트는 테스트 용도로 사용한 코호트를 표시한다. 도 6(B)는 폐암 코호트에 대한 평가 결과이다. 각 그래프에서 상단에 표시한 코호트는 테스트 용도로 사용한 코호트를 표시한다. 흑색종과 폐암의 경우 모두 음성 대조군보다 저항성 예측의 효과가 좋았다.

또한, 상술한 바와 같은 면역항암제 저항성 예측 방법 또는 바이오마커 발굴 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims

분석장치가 샘플의 유전체 데이터를 입력받는 단계;

상기 분석장치가 상기 유전체 데이터를 사전에 학습된 분류기(classifier)에 입력하는 단계; 및

상기 분석장치가 상기 분류기의 출력 정보를 기준으로 상기 샘플에 대한 면역항암제의 저항성을 예측하는 단계를 포함하되,

상기 분류기는 암(tumor)이 유발하는 기능적 돌연변이(functional mutation) 연관 서열의 특징을 기준으로 면역항암제의 저항성을 예측하는 면역항암제에 대한 저항성을 예측하는 방법.
제1항에 있어서,

상기 분류기는 앙상블(ensenble) 모델인 면역항암제에 대한 저항성을 예측하는 방법.
제1항에 있어서,

상기 분류기는 랜덤 포레스트(random forest) 모델인 면역항암제에 대한 저항성을 예측하는 방법.
제1항에 있어서,

상기 분류기는 종양이 유발하는 신항원(neoantigen)을 기준값 이상 갖는 환자의 유전체 데이터를 이용하여 학습되는 면역항암제에 대한 저항성을 예측하는 방법.
제1항에 있어서,

상기 분류기는 면역항암제에 대한 저항성을 기준으로, 저항성을 갖는 양성 훈련 데이터군 및 저항성을 갖지 않는 음성 훈련 데이터군을 이용하여 학습되고,

상기 양성 훈련 데이터군 및 상기 음성 훈련 데이터군은 종양이 유발하는 돌연변이가 단백질 기능에 영향을 미치는 정도에 따라 선택되는 면역항암제에 대한 저항성을 예측하는 방법.
제5항에 있어서,

상기 양성 훈련 데이터군 및 상기 음성 훈련 데이터군은 아미노산 서열이 단백질 기능에 영향을 주는 정도를 정량적으로 평가하는 SIFT 점수 및 PROVEAN 점수가 모두 기준값 이상인 훈련 데이터인 면역항암제에 대한 저항성을 예측하는 방법.
제5항에 있어서,

상기 양성 훈련 데이터군은 신항원(neoantigen)의 개수가 기준값 이상인 훈련 데이터인 면역항암제에 대한 저항성을 예측하는 방법.
분석장치가 샘플의 유전체 데이터를 입력받는 단계;

상기 분석장치가 상기 유전체 데이터를 사전에 학습된 분류기(classifier)에 입력하는 단계; 및

상기 분류기의 출력 정보를 기준으로 면역항암제에 대한 저항성을 판단할 수 있는 마커를 결정하는 단계를 포함하되,

상기 분류기는 종양이 유발하는 기능적 돌연변이(functional mutation) 연관 서열의 특징을 기준으로 면역항암제의 저항성을 예측하고,

상기 마커를 결정하는 단계는 상기 유전체 데이터에서 변수 중요도(variable importance)가 기준값 이상인 후보 유전자를 검출하는 단계; 및 상기 후보 유전자에 연관된 단백질의 상호 작용체 분석(interactome analysis)을 통해 상기 후보 유전자 중 상기 마커를 결정하는 단계를 포함하는 면역항암제에 대한 저항성을 예측하는 마커를 검출하는 방법.
제8항에 있어서,

상기 분류기는 면역항암제에 대한 저항성을 기준으로, 저항성을 갖는 양성 훈련 데이터군 및 저항성을 갖지 않는 음성 훈련 데이터군을 이용하여 학습되고,

상기 양성 훈련 데이터군 및 상기 음성 훈련 데이터군은 종양이 유발하는 돌연변이가 단백질 기능에 영향을 미치는 정도에 따라 선택되는 면역항암제에 대한 저항성을 예측하는 마커를 검출하는 방법.
제9항에 있어서,

상기 양성 훈련 데이터군 및 상기 음성 훈련 데이터군은 아미노산 서열이 단백질 기능에 영향을 주는 정도를 정량적으로 평가하는 SIFT 점수 및 PROVEAN 점수가 모두 기준값 이상인 면역항암제에 대한 저항성을 예측하는 마커를 검출하는 방법.
제9항에 있어서,

상기 양성 훈련 데이터군은 신항원(neoantigen)의 개수가 기준값 이상인 훈련 데이터인 면역항암제에 대한 저항성을 예측하는 마커를 검출하는 방법.
제8항에 있어서,

상기 변수 중요도는 돌연변이가 발생한 서열에 대한 임의의 순서 변경(random permutation) 이후 상기 분류기의 예측 결과가 부정확해지는 정도를 나타내는 면역항암제에 대한 저항성을 예측하는 마커를 검출하는 방법.
샘플의 유전체 데이터를 입력받는 입력장치;

종양이 유발하는 기능적 돌연변이(functional mutation) 연관 서열의 특징을 기준으로 면역항암제의 저항성을 예측하는 분류기(classifier)를 저장하는 저장장치; 및

상기 유전체 데이터를 상기 분류기에 입력하여 상기 샘플에 대한 면역항암제의 저항성을 예측하는 연산장치를 포함하는 면역항암제에 대한 저항성을 예측하는 분석장치.
제13항에 있어서,

상기 분류기는 랜덤 포레스트(random forest) 모델인 면역항암제에 대한 저항성을 예측하는 분석장치.
제13항에 있어서,

상기 분류기는 면역항암제에 대한 저항성을 기준으로, 저항성을 갖는 양성 훈련 데이터군을 이용하여 사전에 학습되고,

상기 양성 훈련 데이터군 및 상기 음성 훈련 데이터군은 종양이 유발하는 돌연변이가 단백질 기능에 영향을 미치는 정도에 따라 선택되는 면역항암제에 대한 저항성을 예측하는 분석장치.
제15항에 있어서,

상기 양성 훈련 데이터군 및 상기 음성 훈련 데이터군은 신항원(neoantigen)의 개수가 기준값 이상인 훈련 데이터 중 아미노산 서열이 단백질 기능에 영향을 주는 정도를 정량적으로 평가하는 SIFT 점수 및 PROVEAN 점수가 모두 기준값 이상인 데이터들을 포함하는 면역항암제에 대한 저항성을 예측하는 분석장치.
제13항에 있어서,

상기 연산장치는

상기 유전체 데이터에서 변수 중요도(variable importance)가 기준값 이상인 후보 유전자를 검출하고, 상기 후보 유전자에 연관된 단백질의 상호 작용체 분석(interactome analysis)을 통해 상기 후보 유전자 중 면역항암제의 저항성 마커를 결정하는 면역항암제에 대한 저항성을 예측하는 분석장치.