KR20200079524A

KR20200079524A - 테모졸로미드 반응 예측자 및 방법(temozolomide response predictor and methods)

Info

Publication number: KR20200079524A
Application number: KR1020207015366A
Authority: KR
Inventors: 크리스토퍼 더블유. 제토; 사이히타 비라파네니; 스티븐 벤즈
Original assignee: 난토믹스, 엘엘씨
Priority date: 2017-10-30
Filing date: 2018-10-26
Publication date: 2020-07-03
Also published as: AU2018362347A1; JP2021501422A; TW201923635A; CN111492435A; CA3080342A1; WO2019089393A1

Abstract

고려되는 시스템 및 방법은 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보에 기초하며, 적어도 85%의 예측 정확도를 갖는, 테모졸로미드에 대한 반응 예측 모델을 사용한다.

Description

테모졸로미드 반응 예측자 및 방법(TEMOZOLOMIDE RESPONSE PREDICTOR AND METHODS)

본 출원은 2018년 9월 5일자 출원된 제62/727,245호와 함께, 본 출원인의 동시-계류 중인 2017년 10월 30일자 출원된 미국 가출원 제62/579,127호에 대한 우선권을 주장하며, 둘 모두는 그들 전문이 본원에 포함된다.

본 발명의 분야는 테모졸로미드(temozolomide)에 대한 환자의 약물 반응을 예측하는 시스템 및 방법이며, 특히, 여기서 환자는 암으로 진단받은 상태이다.

배경기술 설명은 본 발명을 이해하는 데 유용할 수 있는 정보를 포함한다. 이는 본원에 제공된 임의의 정보가 선행 기술이거나 현재까지 청구된 발명에 적절하거나, 또는 구체적으로 또는 암시적으로 참조된 임의의 간행물이 선행 기술인 것을 인정하는 것은 아니다.

본원의 모든 간행물 및 특허 출원은 각각의 개별 간행물 또는 특허 출원이 구체적이고 개별적으로 참고로 포함된 것으로 표시되는 바와 동일한 정도로 참고로 포함된다. 포함된 참고문헌에서의 용어의 정의 또는 사용이 본원에 제공된 그 용어의 정의와 일치하지 않거나 상반되는 경우, 본원에 제공된 그 용어의 정의가 적용되며, 참고문헌에서의 그 용어의 정의는 적용되지 않는다.

테모졸로미드(TMZ)는 교모세포종 및 흑색종을 위한 표준 치료로서 사용되며, 최근에 전이성 대장암(mCRC)을 갖는 환자에서 제한적이지만 고무적인 활성이 나타난 화학치료제이다. TMZ는 DNA 내의 구아닌 잔기의 N-7 또는 O-6 위치에서 알킬화/메틸화 활성을 가져, 감수성 세포에서 종종 세포사를 촉발시키는 작용제이다. 그러나, 다양한 DNA 손상 수복 효소, 및 특히 O-6-메틸구아닌-DNA 메틸트랜스퍼라제(MGMT)가 적어도 일부의 종양 세포에서 테모졸로미드의 영향을 상쇄시킬 수 있다. 더욱 최근에, MGMT 유전자의 후성유전학적 침묵화가 보고되었으며, MGMT 유전자의 후성유전학적 침묵화를 갖는 종양 세포는 TMZ에 의한 사멸에 더욱 감수성인 것으로 관찰되었다.

결과적으로, MGMT는 TMZ에 대한 저항성 마커인 것으로 여겨진다. 흔히, 종양의 MGMT 발현 상태는 메틸-BEAMing(MB)로 알려져 있는 디지털 중합효소 연쇄 반응(PCR) 방법에 의해 평가될 수 있으며, 60% 초과의 MGMT 메틸화의 컷오프는 TMZ로부터의 이점을 가질 것으로 예측된다. 또 다른 접근법에서, 질량분석법(MS) 프로테옴 분석에 의해 포르말린 고정, 파라핀-포매된(FFPE) 조직 절편 내의 MGMT 단백질 및 기타 작용 가능한 단백질 바이오마커를 객관적으로 정량화할 수 있다. 본원에서, 200 amol/㎍(분석의 검출 한계에 기초하여 사전결정됨)의 MGMT 단백질 컷오프는, TMZ로 처치된 mCRC 환자에서 이점을 가질 것으로 예측된다. MGMT 단백질 양은 또한 MGMT 메틸화 상태와 상호 연관될 수 있다.

TMZ-처치된 mCRC를 갖는 환자 중에, 종양이 낮은 또는 검출 가능하지 않은 수준의 MGMT 단백질을 발현하였던 환자는 더 높은 MGMT 단백질 수준을 갖는 그들의 대응환자보다 더 긴 mPFS를 가졌다. 미국 일리노이주 시카고에서 열린 ASCO 연례 회의(2017년 6월 2일~6일)에서 초록 # 11601을 통해 제시된 바와 같이, 질량분석법에 의해 정량화되는 바와 같은 MGMT 단백질 발현과 MB에 의한 MGMT 메틸화 상태 사이에 80%의 상관관계가 관찰되었다. 정량적 프로테오믹스에 의해, FFPE 종양 샘플 내의 MGMT 단백질을 객관적으로 측정하였으며, TMZ에 대한 9명의 반응자 중 9명을 후향적으로 확인하였다. 디지털 PCR 메틸화 분석(메틸-BEAMing)에 의해, TMZ에 대한 8명의 반응자 중 7명을 후향적으로 확인하였다. 따라서, 조사자들은 TMZ 요법을 위한 mCRC 환자를 선택하기 위하여 MGMT의 정량적 프로테옴 분석이 잠재적으로 사용될 수 있는 것으로 결론지었다.

그러나, 이러한 접근법은 프로테옴 및 메틸화 분석을 후향적 방식으로만 고려하였다. 더욱이, 질량분석법 분석의 검출 한계 및 메틸화 검출의 가능한 결손은 추가로 반응자 분석의 정확도를 잠재적으로 감소시킨다. 실제로, 질량분석법 분석과 메틸화 분석 간에 MGMT 연관 반응의 일치율은 단지 약 80%라는 것이 관찰되었다. 더욱이, 저자는 임상적으로 유용한 예측 정확도로 반응 예측을 뒷받침하거나 암시할 어떠한 분석 옵션도 제시하지 않았다.

따라서, 특정 약물 반응의 예측을 위한 다양한 시스템 및 방법이 해당 분야에 알려져 있지만, 약물에 대한 간단하고 강건한 치료 예측을 높은 신뢰도로 가능하게 하고, 또한, 환자 특이적인 방식으로 치료 반응의 예측을 가능하게 하는 시스템 및 방법이 필요하다.

본 발명의 대상은 환자의 고형 종양의 치료에서 테모졸로미드에 대한 치료 반응 예측을 위한 다양한 장치, 시스템 및 방법에 관한 것이다. 본 발명의 대상의 일 양태에서, 본 발명자들은 환자의 종양으로부터의 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보를 제공하는 단계, 및 반응 예측 모델에 의해 테모졸로미드에 대한 반응 예측을 계산하는 또 다른 단계로서, 반응 예측 모델이 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보를 사용하는 단계를 포함하는 환자에서의 테모졸로미드에 대한 치료 반응의 예측 방법을 고려한다.

가장 바람직하게는, 반응 예측 모델은 K-최근접-이웃 접근법을 사용하며, RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보가 하위-그룹화된다. 예를 들어, RNAseq 정보는 3.5의 log2(TPM+1) 컷오프 값을 사용하여 하위-그룹화될 수 있고/있거나 단백질 정량적 정보는 200 amol/㎖의 컷오프 값을 사용하여 하위-그룹화될 수 있고/있거나 메틸화 정보는 60% 프로모터 CpG 메틸화의 컷오프 값을 사용하여 하위-그룹화된다. 가장 전형적으로, 반응 예측 모델은 적어도 80%의 또는 적어도 85%의 예측 정확도를 갖는다.

RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보가 FFPE 샘플 또는 신선한 종양 샘플로부터 제공되며, 종양이 고형 종양(예를 들어, 전이성 결장암, 교모세포종 또는 흑색종)인 것이 추가로 고려된다.

본 발명의 대상의 또 다른 양태는 종양을 갖는 환자의 치료 방법을 포함한다. 이러한 방법은 환자의 종양(예를 들어, 고형 종양)으로부터 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보를 제공하는 단계 및 반응 예측 모델에 의해, 테모졸로미드에 대한 반응 확률을 계산하는 단계로서, 반응 예측 모델이 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보를 사용하는 단계를 포함한다. 그 다음, 방법은 0.5 초과의 테모졸로미드 반응 확률을 갖는 환자에게 테모졸로미드를 투여하는 단계로 계속된다. 바람직하게는, 반응 예측 모델은 K-최근접-이웃 접근법을 사용하고/하거나 반응 예측 모델은 적어도 85%의 예측 정확도를 갖는다.

일부 구현예에서, RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보가 하위-그룹화된다. 바람직하게는, RNAseq 정보는 3.5의 log2(TPM+1) 컷오프 값을 사용하여 하위-그룹화되고/되거나 단백질 정량적 정보는 200 amol/㎖의 컷오프 값을 사용하여 하위-그룹화되고/되거나 메틸화 정보는 60% 프로모터 CpG 메틸화의 컷오프 값을 사용하여 하위-그룹화된다.

일부 구현예에서, RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보는 FFPE 샘플 또는 신선한 종양 샘플로부터 제공된다. 일부 구현예에서, 종양은 전이성 결장암, 교모세포종 또는 흑색종이다.

본 발명의 대상의 다양한 목적, 특징, 양태 및 이점은 첨부 도면과 함께 바람직한 구현예의 하기의 발명을 실시하기 위한 구체적인 내용으로부터 더욱 명백해질 것이다.

도 1은 실험 연구에서 사용되는 샘플 및 분석을 도시한 것이다.
도 2a 및 도 2b는 (7A)　MGMT 단백질 상태 및 (7B)　MGMT　프로모터 과메틸화 상태에 의한, TMZ-처치된 환자(n=41) 중에서의 (기준선으로부터) 종양 부피의 변화 백분율의 그래프를 도시한 것이다.
도 3은 TMZ-처치된 환자 중에서의 (기준선으로부터) 종양 부피의 변화 백분율의 그래프를 도시한 것이다.
도 4a 및 도 4b는 MGMT 단백질 발현 수준에 의한, TMZ-처치된 전이성 대장암을 갖는 환자의 무진행 생존(PFS, 4a) 및 전체 생존(OS, 4b)의 그래프를 도시한 것이다.
도 5a 및 도 5b는 MGMT 메틸화 상태에 의해 계층화된, TMZ-처치된 전이성 대장암을 갖는 환자의 PFS(5a) 및 OS(5b)의 그래프를 도시한 것이다.
도 6a 및 도 6b는 RNA-seq 분석에 의한, TMZ-처치된 전이성 대장암을 갖는 환자의 PFS(6a) 및 OS(6b)의 그래프를 도시한 것이다.
도 7a 및 도 7b는 MGMT 단백질 발현 수준에 의한, TMZ-처치된 전이성 대장암을 갖는 환자의 그래프를 도시한 것이다.
도 8a 및 도 8b는 RNAseq 데이터에 대한 컷-오프 값을 개략적으로 예시한 그래프이다.
도 9a 및 도 9b는 RNAseq와 프로테옴 값 사이의 일치를 개략적으로 예시한 그래프이다.
도 9c는 MGMT 단백질 양과 MGMT 메틸화 사이에 일치하는 막대 그래프를 도시한 것이다.
도 10a 및 도 10b는 MGMT 단백질 수준 하위-그룹에 대하여 PFS(무진행 생존) 및 OS(전체 생존)를 도시한 그래프이다.
도 11은 MGMT RNAseq 수준 하위-그룹에 대한 PFS(무진행 생존)를 도시한 그래프이다.
도 12는 하나의 MGMT 하위-그룹 조합에 대한 PFS(무진행 생존)를 도시한 그래프이다.
도 13a 및 도 13b는 또 다른 MGMT 하위-그룹 조합에 대한 PFS(무진행 생존) 및 OS(전체 생존)를 도시한 그래프이다.
도 14는 다양한 분류자에 대한 다양한 입력 변수에 기초한 테모졸로미드 반응 예측 정확도를 도시한 그래프이다.
도 15는 실시예 2에서 리브-페어-아웃(leave-pair-out) 교차 검증마다 예측 모델의 평균 정확도의 그래프를 도시한 것이다.
도 16은 MGMT 평가 방법 그룹에 의한, 58개의 예측 모델링 전략에 대한 미지의(unseen) 샘플에서의 평균 예측 정확도의 그래프를 도시한 것이다. 그룹은 실시예 2에서의 평균 정확도에 의해 좌측에서 우측으로 정렬되어 있다.
도 17은 다양한 데이터의 유형으로부터의 약물 반응 예측의 머신 러닝의 개략적 다이어그램을 도시한 것이다.
도 18은 예측 모델의 회귀 및 분류 파이프라인의 흐름도를 도시한 것이다.
도 19는 다양한 회귀 모델에 의해 결정되는 모든 발현 및 MGMT 단백질 사이의 관계의 그래프를 도시한 것이다.
도 20은 다양한 회귀 모델에 의해 결정되는 MGMT 단백질과 MGMT 유전자 사이의 관계의 그래프를 도시한 것이다.
도 21은 메틸화 값을 사용한 정확도 값의 그래프를 도시한 것이다.
도 22는 메틸화 값을 사용한 정확도 값의 또 다른 그래프를 도시한 것이다.
도 23은 예측 모델의 훈련 및 테스트 데이터 세트의 히트맵(heatmap)을 도시한 것이다.

본 발명자는 임상적으로 유용한 테모졸로미드 예측 모델이 (바람직하게는 하위-그룹화된) 종양의 RNAseq 정보, 단백질 정량적 정보 및 프로모터 메틸화 정보의 조합에 기초한 모델을 사용하여 예상치 못하게 높은 정확도로 확립될 수 있음을 이제 발견하였다. 특히 바람직한 양태에서, 모델은 K-최근접-이웃 접근법에 기초한다.

MGMT 단백질 수준 또는 프로모터 메틸화와 테모졸로미드 반응 사이의 사후 연관이 일반적으로 알려져 있지만, 이러한 연관은 높은 정확도로 예측적인 것은 고사하고, 반드시 예측적이지는 않은 것을 이해해야 한다. 본 발명자는 고도로 정확하고, 예측적인 모델이 확립될 수 있으며, 환자 치료 반응이 정량화된, 바람직하게는 하위-그룹화된 파라미터의 조합에 따라 예측되는 것을 이제 밝혀냈다: (1) 특히 TPM으로 측정되는 바와 같은 RNAseq 정보, (2) 특히 질량분석법에 의해 측정되는 바와 같은 단백질 정량적 정보, 및 (3) 특히 환자의 종양으로부터의 MGMT 프로모터 영역에서 측정되는 바와 같은 메틸화 정보.

따라서, 본 발명자는 환자의 종양으로부터의 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보를 제공하는 단계를 포함하는 종양을 갖는 환자에서의 테모졸로미드에 대한 치료 반응의 예측 방법을 고려한다. 그 다음, 테모졸로미드에 대한 반응 예측은 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보를 고려하는 반응 예측 모델을 사용하여 확립된다. 용이하게 이해될 바와 같이, 정보의 유형이 샘플의 성질을 적어도 어느 정도 결정할 것이다.

본원에 사용되는 바와 같이, 용어 "종양"은 인간 신체 내의 하나 이상의 해부학적 위치에 배치되거나, 그 내에서 관찰될 수 있는 하나 이상의 암 세포, 암 조직, 악성 종양 세포 또는 악성 종양 조직을 나타내며, 이와 상호 교환 가능하게 사용된다. 본원에 사용되는 바와 같은 용어 "환자"가 질환(예를 들어, 암)으로 진단받은 개체 및 질환을 검출하거나 확인하기 위한 목적을 위하여 시험 및/또는 테스트를 받고 있는 개체 둘 모두를 포함하는 것을 주의해야 한다. 따라서, 종양을 갖는 환자는 암으로 진단받은 개체 및 암을 갖는 것으로 의심되는 개체 둘 모두를 나타낸다. 본원에 사용되는 바와 같이, 용어 "제공한다" 또는 "제공하는"은 제조하거나, 생성하거나, 배치하거나, 사용이 가능하게 하거나, 전달하거나, 사용할 준비를 하는 임의의 행위를 나타내며 이를 포함한다.

따라서, 본 발명의 대상의 대부분의 양태에서, 종양 샘플을 사용하여 모든 관련 정보를 수득할 것이다. 환자로부터 종양 샘플(종양 세포 또는 종양 조직)(또는 비교로서 환자 또는 건강한 개체로부터 건강한 조직)을 수득하는 임의의 적합한 방법이 고려된다. 가장 전형적으로, 종양 샘플은 생검(액체 생검을 포함하거나, 수술 중 조직 절제 또는 독립적인 생검 절차 등을 통해 수득됨)을 통해 환자로부터 수득될 수 있으며, 이는 신선한 것이거나, 조직으로부터 오믹스(omics) 데이터를 수득하기 위한 추가의 과정까지 처리될 수 있다(예를 들어, 동결된, 포르말린-고정, 파라핀-포매된(FFPE) 샘플 등). 예를 들어, 종양 세포 또는 종양 조직은 신선한 것이거나 동결될 수 있다. 다른 예에서, 종양 세포 또는 종양 조직은 세포/조직 추출물의 형태일 수 있다. 일부 구현예에서, 종양 샘플은 단일의 또는 다수의 상이한 조직 또는 해부학적 영역으로부터 수득될 수 있다. 예를 들어, 전이성 유방암 조직은 환자의 유방뿐만 아니라 전이된 유방암 조직에 대한 다른 기관(예를 들어, 간, 뇌, 림프절, 혈액, 폐 등)으로부터 수득될 수 있다. 바람직하게는, 환자의 건강한 조직 또는 일치되는 정상 조직(예를 들어, 환자의 비-암성 유방 조직)이 수득될 수 있거나, (환자 이외의) 건강한 개체로부터의 건강한 조직도 또한 비교로서 유사한 방식을 통해 수득될 수 있다.

일부 구현예에서, 종양 샘플은 관련 기간에 걸쳐 종양 샘플 내의 임의의 변화를 결정하기 위하여 다수의 시점에 환자로부터 수득될 수 있다. 예를 들어, 종양 샘플(또는 의심되는 종양 샘플)은 샘플이 암성으로서 결정되거나 진단받기 이전에 그리고 그 이후에 수득될 수 있다. 또 다른 예에서, 종양 샘플(또는 의심되는 종양 샘플)은 1회 또는 일련의 항-종양 치료(예를 들어, 방사선요법, 화학요법, 면역요법 등) 이전에, 그 동안 및/또는 그 이후에(예를 들어, 완료 시 등에) 수득될 수 있다. 또 다른 예에서, 종양 샘플(또는 의심되는 종양 샘플)은 새로운 전이된 조직 또는 세포의 확인 시에 종양의 진행 동안 수득될 수 있다.

수득된 종양 세포 또는 종양 조직으로부터, DNA(예를 들어, 게놈 DNA, 염색체외 DNA 등), RNA(예를 들어, mRNA, miRNA, siRNA, shRNA 등) 및/또는 단백질(예를 들어, 막 단백질, 세포질 단백질, 핵 단백질 등)을 단리하고 추가로 분석하여 오믹스 데이터를 수득할 수 있다. 대안적으로 및/또는 추가적으로, 오믹스 데이터를 수득하는 단계는 1명 이상의 환자 및/또는 건강한 개체의 오믹스 정보를 저장한 데이터베이스로부터 오믹스 데이터를 수신하는 것을 포함할 수 있다. 예를 들어, 환자의 종양의 오믹스 데이터는 환자의 종양 조직으로부터의 단리된 DNA, RNA 및/또는 단백질로부터 수득될 수 있고, 수득된 오믹스 데이터는 동일한 유형의 종양 또는 상이한 유형의 종양을 갖는 다른 환자의 다른 오믹스 데이터 세트와 함께 데이터베이스(예를 들어, 클라우드 데이터베이스, 서버 등)에 저장될 수 있다. 건강한 개체 또는 환자의 일치되는 정상 조직(또는 건강한 조직)으로부터 수득되는 오믹스 데이터는 또한 데이터베이스에 저장될 수 있으므로, 관련 데이터 세트가 분석시에 데이터베이스로부터 검색될 수 있다. 마찬가지로, 단백질 데이터가 수득되는 경우, 이들 데이터는 또한 특히 단백질이 효소 활성(예를 들어, 중합효소, 키나제, 가수분해효소, 리아제, 리가제, 산화환원효소 등)을 갖는 경우에 단백질 활성을 포함할 수 있다.

본원에 사용되는 바와 같이, 오믹스 데이터는 게노믹스, 프로테오믹스 및 트랜스크립토믹스, 및 특정 유전자 발현 또는 전사물 분석 및 세포의 다른 특징 및 생물학적 기능과 관련된 정보를 포함하나 이들에 한정되지 않는다. 게노믹스 데이터에 관하여, 적합한 게노믹스 데이터는 종양 및 일치되는 정상 샘플 둘 모두의 (전형적으로 적어도 10x, 더욱 전형적으로 적어도 20x의 커버리지 깊이(coverage depth)의) 전체 게놈 시퀀싱 및/또는 엑솜 시퀀싱에 의해 수득될 수 있는 DNA 서열 분석 정보를 포함한다. 대안적으로, DNA 데이터는 또한 이전의 서열 결정으로부터 이미 확립된 서열 기록(예를 들어, SAM, BAM, FASTA, FASTQ 또는 VCF 파일)으로부터 제공될 수 있다. 따라서, 데이터 세트는 비가공 또는 가공 데이터 세트를 포함할 수 있고, 예시적인 데이터 세트는 BAM 포맷, SAM 포맷, FASTQ 포맷 또는 FASTA 포맷을 갖는 것들을 포함한다. 그러나, 데이터 세트가 BAM 포맷으로 또는 BAMBAM diff 객체(예를 들어 US2012/0059670A1호 및 US2012/0066001A1호)로서 제공되는 것이 특히 바람직하다. 오믹스 데이터는 전체 게놈 시퀀싱, 엑솜 시퀀싱, 전사체 시퀀싱(예를 들어, RNA-seq)으로부터 또는 유전자 특이적 분석(예를 들어, PCR, qPCR, 혼성화, LCR 등)으로부터 유래될 수 있다. 마찬가지로, 서열 데이터의 전산 분석은 다수의 방식으로 수행될 수 있다. 그러나, 가장 바람직한 방법에서, 분석은 예를 들어, US 2012/0059670A1호 및 US 2012/0066001A1호에 개시된 바와 같이 BAM 파일 및 BAM 서버를 사용하여 종양 샘플 및 정상 샘플의 위치-가이드된 동기 정렬(location-guided synchronous alignment)에 의해 인 실리코에서(in silico) 수행된다. 이러한 분석은 유리하게는 위양성 네오에피토프를 감소시키고, 메모리 및 전산 리소스에 대한 요구를 유의미하게 감소시킨다.

대안적으로 또는 추가적으로, 관련 정보가 종양으로부터 직접 수득되는 것이 바람직하지만, 데이터 중 하나 이상은 또한 데이터베이스로부터 수득될 수 있다. 예를 들어, 신선한 종양 샘플을 사용하여 전체 게놈 시퀀싱 및 RNA 분석을 수득하는 경우, 관련 정보가 데이터베이스 또는 시퀀싱 센터로부터 가장 적합한 것으로서 제공될 수 있다. 프로테오믹스 분석은 레이저 미세절제술을 사용하여 FFPE 샘플로부터 수행될 수 있으며, 질량분석법 분석은 이러한 샘플을 사용하여 수행될 수 있다. 따라서, 정보의 소스는 반드시 단일의 소스로부터 유래될 필요가 없고, 다양한 소스로부터 어셈블될 수 있다. 마찬가지로, 고려되는 분석은 상이한 시점, 예를 들어, 수술-전 및 테모졸로미드의 투여-전, 또는 수술-후 및 테모졸로미드의 투여-전 등으로부터의 데이터를 사용할 수 있다.

따라서, 바람직하게는, 적합한 게놈 정보는 예를 들어, MGMT 유전자 돌연변이, 중복 또는 결실, 및 MGMT의 RNA 서열 정보 및 특히 RNAseq 정보를 확인하여, 전사(및 스플라이스 변이체 또는 존재하는 경우 다른 돌연변이)의 정량적 정보를 제공할 수 있는 전체 게놈 시퀀싱 또는 엑솜 시퀀싱을 포함한다. 대안적으로, 정량적 정보는 또한 혼성화 및/또는 다른 PCR 기반의 방법에 의해 수득될 수 있다. 마찬가지로, 단백질 정보는 바람직하게는 선택된 반응 모니터링 방법, 항체-기반의 정보 및/또는 염색 방법을 포함하는 질량분석 방법을 사용하여 수득된다.

DNA-손상 알킬화제 테모졸로미드(TMZ)는 교모세포종, 흑색종 및 림프종의 치료에서 승인된다. MGMT 효소는 알킬화제로부터의 손상을 수복하는 데 수반된다. MGMT 후성유전학적 침묵화는 흑색종 연구에서 TMZ 저항성과 연관되며, 대장암(CRC)의 약 3분의 1에서 발생한다. 그러나, 복잡하게, 이전의 연구에 의해, 낮은 MGMT 단백질 발현이 mCRC 환자에서 MGMT 메틸화보다 TMZ 반응의 예측을 증가시킬 수 있음이 입증되었다. 다양한 MGMT 분석과 결과 사이의 관계는 불분명하게 남아 있다.

결과적으로, 본 발명자들은 예측 모델의 구축에서 단일의 분자 엔티티(entity)에 대하여 1가지 초과의 유형의 데이터세트를 이용하는 것을 고려한다. 유리하게, 적합한 유형의 데이터세트는 DNA 카피수 데이터, DNA 돌연변이 데이터, RNA 스플라이스 변이체 데이터, RNA 발현 수준 데이터, 프로모터 메틸화 데이터, 후성유전학적 변형 데이터, 단백질 데이터 및 단백질 활성 데이터를 포함한다. 가장 전형적으로, 이러한 데이터는 용이하게 입수 가능하고/하거나 다양한 경로 모델(예를 들어, PARADIGM)로부터 추론될 수 있다. 또한, 1가지 초과의 유형의 데이터세트가 사용되는 경우, 적어도 3가지의 상이한 유형의 데이터세트가 사용될 것이 고려된다. 용이하게 이해될 것과 같이, 분류 알고리즘의 선택은 적어도 어느 정도 데이터세트의 유형의 함수일 것이며, PHOSITA에 의해 주어진 데이터세트에 대한 적절한 분류 알고리즘(들)을 결정할 수 있을 것이다. 더욱이, 그리고 또한 하기에 예시적으로 언급된 바와 같이, 컷오프 값이 사전결정되거나, 추가의 머신 러닝을 사용하여 독립적으로 학습될 수 있다.

정량적 메트릭을 수득하기 위하여 사용되는 특정 방법과 관련 없이, RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보 중 하나 이상이 하나 이상의 임계값을 사용하여 하위-그룹화되는 것이 일반적으로 바람직한 것이 고려된다. 예를 들어, 그리고 하기에 더욱 상세히 설명된 바와 같이, RNAseq 정보는 TPM(백만당 전사물) 임계값에 의해 하위-그룹화될 수 있으며, 단백질 정량적 정보는 검출 임계값 또는 특정 값, 예컨대 200 amol에 의해 하위-그룹화될 수 있으며, 메틸화 정보는 메틸-BEAMing에 의해 결정되는 바와 같은 임계값 값(예를 들어, 60% 메틸화된 MGMT 프로모터 서열)에 의해 하위-그룹화될 수 있다.

본 발명자들은 이러한 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보 중 하나 이상 및/또는 하나 이상의 임계값 값에 의해 하위-그룹화된 정보를 사용하여 예측 모델을 훈련하고, 예측 모델의 정확도를 입증할 수 있음을 추가로 고려한다. 반응 예측 모델에 관하여, 해당 분야에 알려져 있는 모델을 구축하는 수많은 방식이 존재하며, 고려되는 모델은 그룹화된 또는 비그룹화된 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보 중 하나 이상, 및 그의 임의의 조합을 사용할 수 있음을 주의해야 한다. 그러나, 모델이 하기에 추가로 더욱 상세히 기술된 바와 같은 하위-그룹화된 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보를 사용할 것이 바람직하다.

마찬가지로, 해당 분야에 알려져 있는 예측 작업을 위한 다양한 다변량 분류 알고리즘이 존재하며, 예시적인 분류자는 엑스트라 트리(extra tree) 분류자, KNN 분류자, RBF 또는 선형 서포트 벡터(linear support vector) 분류자, 결정 트리 분류자, 나이브 베이즈(Naive Bayes) 분류자, 쿼드(Quad) 판별 분류자, 리지(Ridge) 분류자, 가우시안 프로세스(Gaussian Process) 분류자, 랜덤 포레스트(Random Forest) 분류자, 및 랜덤 포레스트 또는 결정 트리 베이스-추정기를 사용하는 에이다부스트(AdaBoost) 분류자를 포함한다. 유사하게, 해당 분야에 알려져 있는 예측 작업을 위한 다양한 단변량 분류 알고리즘이 존재하며, 일 예는 유덴(Youden) 분석을 사용하여 최적의 분류 임계값을 찾는 것이다. 하기에 나타낸 바와 같이, 이러한 알고리즘은 상이한 정확도 메트릭스를 제공할 것이며, 가장 높은 정확도(또는 정확도 획득)를 갖는 분류자가 반응 예측 모델의 생성을 위해 사용될 것이 일반적으로 바람직하다. 특히, 그리고 다른 상대적으로 높은 정확도 중에, 고려되는 방법은 사용되는 분류자의 유형에 따라 미지의 암 환자(예를 들어, mCRC 환자 등)에서 검증되는 경우, 적어도 70%, 적어도 80%, 적어도 85%의 예측 정확도를 가능하게 하였다. 가장 바람직하게는, K-최근접-이웃 분류자가 사용되는 경우, 약 86%의 정확도가 달성되었다.

실시예

보관된 FFPE 조직 섹션을 FELDSPAR 코호트로부터의 3가지 단계 II 임상 시험 중 하나에서 TMZ를 제공한 전이성 대장암이 있는 41명의 환자로부터 수득하였다. 표 1에 나타낸 바와 같이, 41명의 TMZ-처치된 환자로부터의 종양 샘플이 분석을 위하여 입수 가능하였다. 이들 환자는 69세의 연령 중간값을 가졌으며, TMZ 이전에 3가지 화학치료적 섭생법의 중간값을 제공하였다. 대다수의 환자는 0 또는 1의 ECOG 상태(85%); 및 적어도 2개의 전이 부위(56%)를 가졌으며, 간이 가장 빈번한 부위였다. mCRC에서 예상되는 바와 같이, 모든 환자는 결국 TMZ를 진행하였다. ORR은 하기와 같았다: 26명의 환자(63%)는 진행성 질병을 가졌으며; 9명(22%)은 부분 반응을 가졌으며; 6명(15%)은 안정 질병을 가졌다. 도 1에 나타낸 바와 같이, 이들 41개의 샘플 중, 39개가 RNAseq 시퀀싱을 위한 품질 관리 표준을 성공적으로 통과하였으며, 35개가 메틸BEAMing(디지털 MB)를 위한 품질 관리 표준을 성공적으로 통과하였다. 하기는 이러한 샘플의 선택의 짧은 분석이다.

모든 41개의 보존된 샘플은 LC-MS에 의해 평가 가능하였으며, 35개를 디지털 MB에 의해 분석하였으며, 39개는 RNA-seq에 의한 MGMT 평가를 위한 충분한 품질의 것이었다(도 1, 표 1). LC-MS-기반의 프로테오믹스에 의해 평가되는 환자 중, 18명(44%)이 MGMT 단백질 음성(200 amol/㎍(종양 단백질) 미만)으로 테스트되었으며, 이에 따라, TMZ에 반응할 가능성이 높은 것으로 간주하였다. 나머지(n=23)는 MGMT 단백질 양성이었으며, TMZ 요법에 반응할 가능성이 낮은 것으로 간주하였다. 임상 시험 참여자의 이러한 분자적으로 풍부한 집단에서, MGMT의 비는 44%로 높았다. 그에 비해, MGMT 음성의 16% 유병률은 1년의 과정에 걸쳐 프로테옴 테스트를 위해 본 발명자들의 실험실에 제출된 모든 CRC 환자 샘플에서 발견되었다(n=114). MB에 의해, 63% 컷오프 초과의 MGMT 프로모터 메틸화가 12명(34%)의 환자에서 관찰되었으며; 나머지는 비메틸화된 MGMT 상태를 가졌다(표 2). MB 및 LC-MS 둘 모두에 의해 분석되는 35개의 종양에서, 방법 간의 일치율은 77%였다; p=0.004.

반응 및 생존을 예측하기 위한 MGMT 분석의 능력: 정량적 프로테오믹스에 의해, 9명의 TMZ에 대한 RECIST-정의된 반응자 중 9명이 후향적으로 확인되었으며; 모든 9명의 반응자는 LC-MS에 의해 음성 MGMT 단백질 발현을 가졌다. MGMT 음성 단백질을 갖는 추가의 9명의 환자는 TMZ에서 RECIST-정의된 반응을 갖지 않았다(ORR, MGMT-음성 환자: 50%). 양성 MGMT 단백질 발현을 갖는 환자 중 누구도 TMZ에 반응하지 않았다(ORR, MGMT-양성 환자: 0%; p=0.0001; 표 2, 도 2a).

MB에 의해 분석된 환자(n=35) 중, MGMT 과메틸화 상태에 의해, 8명의 TMZ에 대한 반응자 중 6명이 후향적으로 확인되었으며; MB에 의한 과메틸화된 MGMT를 갖는 추가의 6명의 환자는 비-반응자였다(ORR, MGMT-과메틸화된 환자: 50%). 음성 메틸화 상태를 갖는 2명의 환자는 TMZ에 반응하였다(ORR: 9%; p=0.011; 표 2; 도 2b). 도 3은 200 amol/㎍ 미만의 MGMT 단백질(n = 18; 진청색) 및 200 amol/㎍ 이상의 MGMT(n = 23; 연청색)를 갖는 환자에 의한, 메틸화 상태 및 MGMT 단백질 발현 수준(종양 부피의 (기준선으로부터의 변화 백분율)의 데이터를 조합한 그래프를 보여준다. 양성 상태를 갖는 MB에 의한 MGMT 메틸화 상태(적색 막대; n = 35)는 60% 초과로서 정의된다(적색 선).

생존 분석에서, LC-MS에 의해 음성 MGMT 단백질 발현을 갖는 환자는 프로테옴 양성 환자보다 더 긴 중간값 PFS(mPFS)를 가졌다(3.7개월 대 1.8개월; HR: 0.504[95% CI 0.27-0.94]; p = 0.014)(도 4a). MGMT 수준은 이변량 콕스 비례 위험 모델(Cox proportional hazards model)에서 12가지의 잠재적인 교란변수(BRAF 및 KRAS 돌연변이 상태, 성별, ECOG, 이전의 치료의 수, LDH 기준선 수준, 전이 부위의 수, 호중구 대 림프구 비, 복막 질병, 일차 종양 위치, 보관된 조직의 부위 및 연령)와 쌍을 이루는 경우 통계적으로 유의미한 PFS의 예측자로 남아 있다.

이들 임상적 변량의 일부가 결과(예를 들어, LDH)와 연관되었지만, MGMT 단백질 발현은 PFS의 가장 통계적으로 유의미한 예측자였다(표 3). MGMT 단백질 발현에 의한 OS의 차이는 PFS 차이와 유사하였지만, 통계적 유의성에 도달하지 못하였다(8.7 대 7.4개월, HR: 0.593[95% CI: 0.32 내지 1.12]; p = 0.078)(도 4b). MGMT MB에 의해 계층화된 환자 중에 PFS 또는 OS의 통계적으로 유의미한 차이가 존재하지 않았다(도 5a 및 도 5b).

RNA 시퀀싱에 의한 MGMT: 데이터에 대한 mRNA 발현 핏팅을 위한 실험적 컷포인트(3.5 log2[TPM+1] 이하)를 사용하여, 낮은 MGMT mRNA 발현이 대다수의 샘플에서 관찰되었다(n=23; 59%)(표 2). RNA-seq에 의해 낮은 MGMT RNA 발현을 갖는 환자 종양은 더 높은 mRNA 발현자보다 유의미하지 않게 더 높은 ORR을 가졌다(35% 대 6%; p=0.115; 표 2). MGMT mRNA 발현에 의해 계층화된 환자 중에 통계적으로 유의미한 생존 차이가 존재하지 않았다(도 6a 및 도 6b). 도 7a 및 도 7b에는 TMZ-치료된 환자(n = 41) 중에, 200 amol/㎍(n = 18) 미만의 MGMT 단백질 수준을 갖는 환자가 더 높은 MGMT 단백질 수준을 갖는 환자보다 더 긴 중간값 PFS(mPFS)를 가졌음을 보여주는 또 다른 그래프가 도시되어 있다. 모든 환자는 결국 TMZ를 진행한다. (도 7a) 임상 반응을 반영하기 위하여 진행을 RECIST 기준에 의해 재정의하였으며: 6개월 이상 동안 부분 반응 또는 안정 질병을 갖는 환자를 반응자(n=18) 또는 비-반응자(n=23)로서 정의하였다. 전체 생존에 대한 결과는 일치하였으며, 거의 통계적으로 유의미하였다(8.7 대 7.4개월, HR=0.6, p=0.077)(도 7b).

RNAseq에서의 컷오프와 MS-프로테옴 컷오프 간의 상관관계: 관찰된/실제적인 MS-프로테오믹스 컷오프 값에 대해 RNAseq에서 상응하는 컷오프 값을 확인하려는 시도에서, 본 발명자는 모든 COAD 및 READ TCGA 샘플에 대한 MGMT 발현 수준을 수득하고, 이전의 프로테옴 분석에 의해 제시되는 200 amol 컷오프와 일치할 발현 패턴 내의 내츄럴 브레이크(natural break)를 찾았다. 도 8a 및 도 8b로부터 알 수 있는 바와 같이, MGMT TPM의 분포는 3.5 log2(TPM+1)(수직선에 나타냄) 주변에 내츄럴 브레이크를 갖는 양봉으로 나타난다. 하기 표 4로부터 또한 명백한 바와 같이, 3.5 log2(TPM+1)의 컷오프에서, 200 amol/㎖의 MS 프로테오믹스 컷오프와 RNAseq 클래스 간의 우수한 일치가 관찰되었다. 단백질과 RNA 임계값 간의 이러한 연관의 수준에 대한 피셔의 정확 p-값은 p<0.00082이다.

추적 분석에서, 본 발명자는 도 9a 및 도 9b로부터 알 수 있는 바와 같이 유덴 분석에 따라, 선택된 컷-오프(3.5 log2[TPM+1])가 이러한 코호트에서 RNAseq와 프로테옴 값 간의 일치를 위해 최적이었음을 밝혀냈다. 이러한 3.5의 컷-포인트에서, 프로테옴 MGMT 클래스와 비교하는 경우, 이러한 코호트에서 0.71의 TPR 및 0.11의 FPR이 수득된다. 도 9c는 MGMT 프로테옴 분석과 MB 간의 일치율이 80%였음을 나타내는 막대 그래프를 보여준다; p=0.0011 피셔의 검정(MB에 의해 분석되는 35개의 종양).

결과와 연관된 MGMT 하위그룹의 정의: 제1 분석에서, 본 발명자는 200 amol/㎖ 미만의 MGMT를 갖는 환자에 대한 PFS 이익을 입증하는 이전의 연구를 재현하였으며, 전형적인 결과는 도 10a에 나타나 있다. 프로테옴 클래스 간의 로그-순위 검정은 p<=0.0186을 가졌으며, 콕스 비례 위험 결과는 표 5에 나타나 있다.

로그-순위 검정이 이들 2개의 하위군에 대하여 p<0.0186을 제공하지만(이전의 연구에서 나타난 바와 같음), 콕스 비례 위험비는 p<0.021을 제공하는 것을 주의해야 한다. 콕스 모델은 약간 더 보수적이며, 아암(arm)의 불균형을 더 고려한다. 두 통계학 모두가 하기의 결과에서 논의될 것이다. 또한, 이러한 분할은 도 10b로부터 알 수 있는 바와 같이, OS를 생존 메트릭으로서, 그리고 사망을 종점으로서 사용하는 경우 p<0.05 유의성을 소실하는 것을 주의해야 한다. 본원에서, 프로테옴 클래스 간의 로그-순위 검정은 p<=0.0879였으며, 콕스 비례 위험은 표 6에 나타낸 바와 같았다.

다음으로, 본 발명자는 RNAseq 하위그룹을 사용하여 관찰되는 바와 같은 연관을 조사하였다. 본원에서, TGCA COAD/READ 데이터에서 확립된 바와 같은 3.5 log2(TPM+1)의 RNAseq 컷오프를 사용하여, 도 11에 나타낸 바와 같이 하위그룹을 정의하였다. 이는 p<=0.1731의 RNAseq 클래스 간의 로그-순위 검정을 제공하였으며, 콕스 비례 위험은 표 7에 나타나 있다. 용이하게 알 수 있는 바와 같이, RNAseq 클래스는 프로테옴 하위그룹만큼 예후적이지 않았으며, 이러한 코호트 크기로 유의성이 달성되지 않았다. 유사하게, OS를 생존 메트릭으로서 사용하면 유의성이 달성되지 않았다.

그 다음, 본 발명자는 RNAseq 하위그룹과 프로테옴 클래스의 조합을 사용하여 관찰되는 바와 같은 연관을 조사하였다. 샘플이 RNAseq 또는 단백질에서 높은 MGMT를 가졌다면, 그것은 높은 MGMT로 간주하였다. 이러한 분석에 대한 전형적인 결과는 도 12에 나타나 있다. 본원에서, RNA+단백질 클래스의 조합 간의 로그-순위 검정은 p<=0.0350이었으며, 콕스 비례 위험 결과는 표 6에 나타나 있다. 본원에서, 단독의 RNAseq에서 차등적인 생존이 유의미하였으며, 개선되었지만, 단독의 프로테옴 200 amol 분할만큼 유의미하지 않았음을 주의해야 한다.

추가의 분석에서, 본 발명자는 상기 조합에 더하여 MGMT 프로모터 CpG 메틸화 하위그룹을 사용하여 관찰되는 바와 같은 연관을 조사하였다. 더욱 구체적으로, 60% 초과의 메틸화를 갖는 샘플은 저해된 MGMT 발현을 갖는 것으로 예상되었으며, 최적의 조합은 하기와 같았다: 높은 MGMT: 낮은 메틸화 및 높은 RNA 또는 높은 단백질 중 어느 하나; 및 낮은 MGMT: 높은 메틸화 또는 낮은 RNA 또는 낮은 단백질 중 어느 하나.

도 13a는 이러한 분석의 예시적인 결과를 보여준다. 본원에서, 3-방향 조합 클래스 간의 로그-순위 검정은 p<=0.0378이었으며, 콕스 비례 위험은 표 9에 나타나 있다.

이러한 분리는 RNA+단백질 또는 단독의 단백질만큼 꽤 분명하지 않았지만, 그것은 도 13b에 나타낸 바와 같이 OS가 생존 메트릭인 경우, 로그-순위 및 콕스 PH 검정 둘 모두에서 유의미하게 유지되었다. 3-방향 조합 클래스 간의 로그-순위 검정은 p<=0.0419였으며, 콕스 비례 위험은 표 10에 나타나 있다.

테모졸로미드 반응 예측 실시예 I: 본 발명자는 MGMT-오믹스 값에 기초하여 테모졸로미드 반응의 예측 모델을 구축하기 위한 다수의 방법을 평가하였다. 더욱 구체적으로, 본 발명자는 MGMT 분석의 각각을 사용하여 테모졸로미드 반응의 예측 모델을 구축하였다: RNAseq 발현 TPM, 단백질 amol/㎖ 및 메틸화 백분율, 및 그의 조합 및 하위-조합. 이들 특징의 각각에 대한 미가공 연속값 및 그들의 하위-그룹화된 값(각각 3.5 log2(TPM+1), 200 amol/㎖ 및 60% CpG 메틸화) 둘 모두를 사용하여 추가의 모델을 구축하였다. 조합하여, 이는 10가지 상이한 '데이터세트'를 초래하였다:

1. 발현 단독

2. 단백질 단독

3. 메틸화 단독

4. 발현 + 단백질

5. 발현 + 단백질 + 메틸화

6. 발현(하위그룹화됨) + 단백질

7. 발현(하위그룹화됨) + 단백질(하위그룹화됨)

8. 발현(하위그룹화됨) + 단백질(하위그룹화됨) + 메틸화(하위그룹화됨)

9. 발현 + 단백질 + 메틸화(하위그룹화됨)

10. 발현 + 단백질(하위그룹화됨) + 메틸화(하위그룹화됨)

예측 성능을 평가하기 위하여, 본 발명자는 리브-페어-아웃 교차-검증(LPOCV)을 사용하였다. 이러한 검증 방법은 37/39개 샘플에서 예측 모델을 구축한 다음, 하나의 미지의 양성 샘플과 하나의 미지의 음성 샘플에서 예측 성능을 테스트하는 것을 필요로 한다. 이를 양성 및 음성 샘플의 모든 가능한 조합에 대하여 반복하여, 이러한 코호트에서 308건의 성능의 평가를 초래한다. 이들 308개의 미지의 테스트 세트에 걸친 평균 성능은 주어진 예측 알고리즘에 대한 보고된 정확도이다.

모든 다중-특징 데이터세트에 있어서(상기 4 내지 10), 본 발명자는 이러한 예측 작업을 위하여 13개의 다양한 분류 알고리즘을 평가하였다. 단일-특징 데이터세트에 있어서(상기 1, 2 및 3), 유덴 J 통계학을 사용하여 훈련 샘플에서 새로운 최적의 컷오프를 확립하였으며, 새로운 컷오프의 성능을 미지의 샘플의 쌍에서 테스트하였다.

이들 10개의 데이터세트와 14개의 분류 알고리즘을 140개의 상이한 모델링 전략으로 조합한다. LPOCV를 사용하여 미지의 샘플에서 이들 140개의 전략의 예측 성능을 평가하는 것은 추가의 2772개의 독특한 예측 하위-모델을 구축하는 것을 필요로 하였다. 도 14는 이들 모델링 전략의 각각에 대하여 미지의 샘플에서의 평균 정확도를 도시한 것이다.

계산 및 도 14로부터 알 수 있는 바와 같이, 최적의 모델링 전략은 종합적으로 미지의 샘플에서 테모졸로미드 반응을 예측함에 있어서 87% 정확하였다. 이러한 성능(87% 정확도)이 대다수의 분류 전략(즉, 모든 샘플이 저항성인 것을 가정하여: 71%)보다 상당히 더 나으며, 단백질 값을 단독으로 사용하는 것(80%)보다 개선되는 것이 이해되어야 한다. 이러한 모델링 전략을 선택하여, 최종 예측 모델을 제안하였다.

최고-수행 모델링 전략은 그들의 하위-그룹화된 변환에서 모든 3가지 특징(RNA, 단백질 및 메틸화)을 사용하는 K-근접-이웃 접근법을 사용한다. 이러한 접근법은 하기와 같이 신규한 샘플에서 테모졸로미드 반응을 예측한다: 1. 상기 기술된 사전정의된 컷-오프를 사용하여 MGMT mRNA 발현 상태, 단백질 수준 및 프로모터 메틸화 상태를 정의하고, 2. 모든 3가지 MGMT-관련 특징(즉, 브루트 트리(brute tree))을 사용하여 예측할 각각의 훈련 예 및 신규한 샘플 간의 쌍별 민코프스키(Minkowski) 거리를 계산하고, 3. 각각의 신규한 샘플에 있어서, 5개의 가장 근접한 일치를 확인하고, 4. 신규한 샘플을 가장 근접한 훈련 샘플의 대다수의 반응 클래스에 할당한다.

본 출원에서 훈련을 위해 모든 이용 가능한 샘플을 사용하는 최종 모델을 제안하며, 신규한 샘플에서의 예측 성능이 교차-검증된 환경에서의 것들과 유사할 것이라는 강력한 확신이 있다. 3가지의 이진 특징에 대한 훈련으로 인하여, 최종 모델은 테모졸로미드 민감도의 확률을 8가지 별개의 상태에서 설명한다(표 11). 신규한 샘플은 상기 기술된 바와 동일한 컷오프를 사용하여 하위그룹화되고, 이들 8가지 상태 중 하나에 할당될 수 있다. 0.5 초과의 민감도 예측 확률은 상태가 약 87% 정확도로 테모졸로미드에 민감할 것임을 뒷받침한다. 역으로, 0.5 미만의 테모졸로미드 반응 확률은 테모졸로미드에 대한 저항성과 연관된다.

테모졸로미드 반응 예측 실시예 II: 본 발명자들은 3가지 개별 정량적 MGMT 분석(프로모터 정량적 메틸화, RNA 발현 및 단백질 존재비)에 기초하여 TMZ 반응의 강건한 예측 모델을 훈련하고, 미지의 mCRC 환자에서 그의 정확도를 검증하고자 하였다. 상이한 관점에서 보면, 본 발명자들은 단일의 유형의 예측자를 확인하는 것보다는, 머신 러닝 환경에서 다수의 예측자의 확인을 시작하여, 다양한 변수를 통합하고, 높은 민감도 및 정확도를 갖는 예측 모델에 도달하였다.

일 예에서, 3가지 TMZ 안전성 시험(INT 연구 n.20/13; INT 연구 20/13 및 EudraCT 2012-002766-13)으로부터의 41개의 보관된 종양 샘플을 사용하여 모델을 훈련하였다. TMZ에 대한 반응을 RECIST v.1.1 기준에 의해 정의하였다. MGMT 상태를 3가지 방법에 의해 평가하였다: 디지털 PCR/메틸-BEAMing(MB), RNAseq 및 액체 크로마토그래피 질량-분석법. 몇몇의 다변량 모델링 전략(kNN, SVM, 결정 트리 등)을 훈련 세트 내의 교차-검증(CV)을 사용하여 평가하였다. 임상-등급 메틸화 테스팅의 결여로 인하여, (전체 RNAseq에 기초하여) MGMT 메틸화를 먼저 예측한 다음, 예측된 메틸화를 사용하여 TMZ 반응을 분류하는 모델을 또한 탐색하였다. CV에서 가장 정확한 모델을 유사하게 분석한 추적 연구로부터의 14개의 미지의 종양 샘플에서 검증하였다. 각 MGMT 분석에서 사전정의된 임계값을 비교를 위한 기초로서 사용하였다.

하기 표 1의 예시적인 결과로부터 알 수 있는 바와 같이, 훈련 및 검증하기 위해 다수의 변수를 사용하였던 경우, 테모졸로미드에 대한 반응 예측은 단일의 변수(즉, 개별적으로 사용되는 메틸화 또는 단백질 또는 발현)에 비하여 유의미하게 개선되었다. 실제로, 다수의 변수의 통합에 기초하여, 불응성 mCRC에서 TMZ 반응은 대락적으로 예측 가능하다. 예측된 메틸화, 전사물 수준 및 단백질 존재비의 조합은 가장 정확하고 강건한 반응의 예측 방법을 제공한다(82% 내지 87% 정확도).

하나의 실험의 세트에서, 본 발명자들은 MGMT 단백질(LC-MS에 의해 측정되는 바와 같음), MGMT 발현(TPM에 의해 측정되는 바와 같음) 및 MGMT 프로모터 메틸화(디지털 PCR/메틸-BEAMing(MB)에 의해 측정되는 바와 같음)에 대한 훈련 코호트 예측 성능을 조사하였다. 더욱 구체적으로, TMZ에 대한 반응을 예측하기 위한 사전정의된 컷오프의 능력을 평가하기 위하여, 본 발명자들은 리브 페어 아웃 교차 검증 전략을 사용하였다. 사전정의된 및 탐색적 컷오프를 미지의 샘플에서 각각 LC-MS, RNAseq 및 MB 데이터에서 330, 308 및 250회 평가하였다. LC-MS 및 RNA-seq에서 사전정의된 컷오프는 MB 모델(68.0%)보다 더 나은 평균 예측 성능(각각 82.1% 및 72.2%)을 보였으며, 전형적인 결과는 도 15에 도시되어 있다.

다양한 분류 알고리즘 및 훈련 데이터(즉, 단일 변수 대 다중 변수)의 영향을 추가로 조사하기 위하여, 본 발명자들은 단백질, RNA 및 메틸화 데이터를 단독으로 또는 조합하여, 그리고 사전정의된 임계값과 함께 또는 이것 없이 사용하는 몇몇의 러닝 접근법을 수행하였다. 도 16으로부터 알 수 있는 바와 같이, 단백질 기반의 모델은 상대적으로 높은 예측 정확도를 가졌으며, 이는 3가지 모두의 변수를 사용하는 모델에 의해 추가로 대체된다. 추가로 정확도를 개선하고, 임상적 또는 샘플 요건을 단순화시키기 위한 시도에서, 본 발명자들은 이전의 TMZ 연구를 훈련 데이터로서 사용하여, 10개의 후보 모델(+3 사전정의된 컷오프)을 구축하고, 측정된 메틸화를 회귀 모델을 사용하여 전체 RNAseq에 기초한 '예측된 메틸화'로 대체하였다. 그 다음, 성능을 도 17에 예시적으로 나타낸 바와 같이 미지의 테스팅 코호트(TEMIRI)에서 테스트하였다. 본원에서, 훈련 데이터세트는 TMZ 코호트였으며, 3가지 단계 II 연구로부터의 TMZ로 처치된 41명의 mCRC 환자를 포함하였다. 질량 분석법에 의한 연속 MGMT 단백질 수준, 및 RNA seq에 의한 RNA 발현 데이터 및 연속 MGMT 메틸화 백분율 데이터가 모든 환자에 대하여 이용 가능하였다. 약물 반응을 이진 약물 반응 데이터로서 기록하였다. 테스팅 데이터세트는 TMZ + 이리노테칸으로 처치된 32명의 mCRC 환자를 포함하였다. 이진 약물 반응 데이터는 3명의 환자에 대하여 소실되었으며, 유전자 발현 값은 14명의 환자에 대하여 이용 가능하였고, MGMT 단백질 발현 데이터는 21명의 환자에 대하여 이용 가능하였다. 표 13을 참조한다.

본 발명자들은 더 높은 정확도를 갖는, 메틸화를 설명하고/하거나 예측된 메틸화 값을 사용하는 머신 러닝을 위한 회귀 모델이 구축될 수 있음을 추가로 고려한다. 도 18은 회귀 모델을 구축하기 위한 회귀 및 분류 파이프라인을 보여준다. 표 14에 나타낸 바와 같이, 회귀자 모델의 RMSE(잔차 분산의 제곱근, 데이터에 대한 모델의 절대적 핏팅-관찰된 데이터 점이 모델의 예측된 값에 얼마나 가까운지를 나타냄)은 MGMT 단백질 발현 수준 및 MGMT RNAseq 둘 모두를 데이터 세트로서 사용하는 경우 더 낮다(더 잘 핏팅된다).

도 19는 모든 발현(모든 RNA의 발현 수준) 및 MGMT 단백질 발현 수준을 데이터 세트로서 사용하는 경우 다양한 회귀자 모델의 평균 정확도 값을 보여주며, 이는 또한 표 15에 요약되어 있다.

도 20은 MGMT 유전자 발현 및 MGMT 단백질 발현 수준을 데이터 세트로서 사용하는 경우 다양한 회귀자 모델의 평균 RMSE 값을 보여주며, 이는 또한 표 16에 요약되어 있다.

다음으로, 본 발명자들은 예측된 메틸화 값을 사용하여 회귀자 모델을 구축하였다. 도 21 및 도 22는 예측된 메틸화 값을 데이터 세트로서 사용하는 경우 다양한 회귀자 모델의 평균 정확도 값을 보여주며, 이는 또한 표 17 및 표 18에 각각 요약되어 있다.

도 23은 언급된 바와 같은 사전설정된 임계값을 사용하여 44개의 샘플에 걸쳐 1,000개의 가장 가변적인 유전자에 대한 반응 예측을 위한 예시적인 결과를 갖는 히트 맵을 도시한 것이며, 표 14는 선택된 데이터세트 및 데이터세트의 조합에 사용되는 예시적인 분류 알고리즘의 목록이다. 한번 더 알 수 있는 바와 같이, MGMT RNAseq, MGMT 단백질 및 MGMT 프로모터 메틸화를 이용하면, 테모졸로미드에 대한 반응 예측을 위한 최고의 훈련 및 테스트 정확도가 제공되었다. 마찬가지로, 민감도, 특이도 및 F1 점수는 모두 다른 분류자 및 개별 데이터세트에 비해 실질적으로 증가하였다. 표 19의 최적의 모델에 대한 샘플 수준 예측은 표 20에 열거되어 있으며, 이는 단백질, MGMT 메틸화 및 mRNA를 동시에 고려하는 모델이 다른 모델과 비교하는 경우 더 잘 수행하는 것을 나타낸다.

TMZ로 처치되는 불응성 mCRC를 갖는 환자의 이러한 후향적 분석에서, MGMT 단백질에 대한 MS-기반의 테스트는 50%의 민감도 및 100%의 특이도를 가졌다. 환자의 이러한 작은 코호트에서, 프로테옴 테스트는 TMZ에 대한 반응을 예측함에서 디지털 MB 및 RNA-seq 둘 모두를 능가하였다. 더욱이, 사전정의된 임계값(200 amol/㎍) 미만의 MGMT 단백질 발현은 mPFS의 2배 증가와 연관되었으며, 이러한 연관은 12개의 예후적 변수와 독립적이었다. 흥미로운 것은, LC-MS에 의해 양성 MGMT 단백질 발현을 갖는 환자는 TMZ의 임상 시험에 참여한 mCRC 환자에 대하여 보고된 것과 유사한 PFS를 가졌다. 이러한 시험의 실망스러운 결과는 TMZ에 대한 최적의 후보물질을 선택하기 위한 표준 MGMT 평가 방법, 예컨대 MSP의 제한된 능력을 반영하는 것일 수 있다. 본 연구는 전향적 연구에서 대안적인 MGMT 플랫폼, 예컨대 LC-MS의 평가를 뒷받침한다.

TMZ 반응의 예측자로서 MGMT 분석의 정확도 및 강건성을 교차-검증 환경에서 엄격하게 테스트하였다. 이러한 활동에서, 프로테옴 MGMT 테스트는 82.1%의 평균 정확도로 다른 테스트 플랫폼을 능가하였다.

TMZ에 대한 잠재적인 반응자의 확인의 중요성은 TMZ-처리된 mCRC 내의 DNA 불일치 수복이 손상되며, 여기서 TMZ 반응자가 현미부수체 안정에서 현미부수체 불안정(MSI)으로 전환됨에 따라 그들을 면역 체크포인트 저해제를 사용한 치료법에 적격하게 만들기 때문에 인식되는 것을 주목한다. 다시 말하면, TMZ 중에 재발된 환자는 면역요법을 시작할 수 있었다.

TMZ에 대한 잠재적인 반응자의 확인의 중요성은 TMZ-처리된 mCRC 내의 DNA 불일치 수복의 손상에 대한 최근 공개된 결과에 의해 강조되었으며, 여기서, TMZ 반응자는 현미부수체 안정에서 현미부수체 불안정(MSI)으로 전환함에 따라 그들을 면역 체크포인트 저해제를 사용한 치료법에 적격하게 만든다. 이는 TMZ에서 재발되는 환자가 면역요법을 시작할 수 있음을 뒷받침한다. 따라서, 본 발명자들은 암 치료가 예측 결과에 기초하여 환자를 위해 권고되거나 갱신될 수 있음을 추가로 고려한다. 예를 들어, 환자는 반응 예측 모델이, 환자가 TMZ에 대해 반응성임을 예측하는 경우 종양을 치료하는 데 효율적인 용량 및 일정으로 TMZ가 투여될 수 있다. 또 다른 예에서, 반응 예측 모델이 환자가 TMZ에 대하여 더 이상 반응성이 아니거나, TMZ에 대하여 실질적으로 감소된(예를 들어, TMZ의 사전-처리에 비하여 또는 유사한 암의 예후를 갖는 다른 개체 등에 비하여 적어도 30%, 적어도 50%, 적어도 70% 감소된) 반응성을 갖는 것을 예측하는 경우 환자에는 면역 요법제(예를 들어, 체크포인트 저해제, 암 백신 등)가 투여될 수 있다.

본원에 사용되는 바와 같이, 약물 또는 암 치료제를 "투여하는"이라는 용어는 약물 또는 암 치료제의 직접적인 및 간접적인 투여 둘 모두를 나타낸다. 약물 또는 암 치료제의 직접적인 투여는 전형적으로 의료 전문가(예를 들어, 내과의, 간호사 등)에 의해 수행되며, 간접적인 투여는 (예를 들어, 주사, 경구 섭취, 국소 도포 등을 통한) 직접적인 투여를 위하여 이용 가능한 약물 또는 암 치료제를 의료 전문가에게 제공하거나, 이를 제조하는 단계를 포함한다.

본원의 설명에, 그리고 하기의 청구범위 전체를 통하여 사용되는 바와 같이, "하나"("a", "an") 및 "상기"("the")의 의미는 문맥에서 명백하게 달리 진술하지 않는 한 복수의 참조대상을 포함한다. 또한, 본원의 설명에 사용되는 바와 같이, "내에서"("in")의 의미는 문맥에서 명백하게 달리 진술하지 않는 한, "내에서" 및 "상에서"("on")를 포함한다. 또한, 본원에 사용되는 바와 같이, 그리고 문맥에서 달리 진술하지 않는 한, 용어 "에 결합된"("coupled to")은 직접적인 결합(서로 결합된 2가지 요소가 서로 접촉함) 및 간접적인 결합(적어도 하나의 추가적인 요소가 2가지 요소들 사이에 위치함) 둘 다를 포함하도록 의도된다. 따라서, 용어 "에 결합된"("coupled to") 및 "와 결합된"("coupled with")은 동의어로 사용된다. 마지막으로, 문맥에서 달리 진술하지 않는 한, 본원에 제시된 모든 범위는 그들의 종점을 포함하는 것으로 해석되어야 하며, 개방형 범위는 상업적으로 실용적인 값을 포함하는 것으로 해석되어야 한다. 유사하게, 값의 모든 목록은 문맥상 달리 지시되지 않는 한 중간 값을 포함하는 것으로 간주되어야 한다.

본원에서 본 발명의 개념을 벗어남 없이 이미 기재된 것들 이외의 더 많은 변형이 가능하다는 것이 당업자에게 명백할 것이다. 그러므로, 본 발명의 대상은 첨부된 청구범위를 제외하고는 제한되지 않아야 한다. 더욱이, 본 명세서 및 청구범위 둘 모두를 해석함에 있어서, 모든 용어는 문맥과 일치하는 가능한 가장 넓은 방식으로 해석되어야 한다. 특히, 용어 "포함하다" 및 "포함하는"은 비-배타적 방식으로 요소, 구성성분, 또는 단계를 나타내는 것으로 해석되어야 하며, 이는 참조된 요소, 구성성분, 또는 단계가 존재할 수 있거나, 이용될 수 있거나, 명시적으로 언급되지 않은 다른 요소, 구성성분, 또는 단계와 조합될 수 있음을 나타낸다. 본 명세서의 청구범위가 A, B, C... 및 N으로 이루어진 군으로부터 선택되는 어떤 것 중 적어도 하나를 지칭하는 경우, 텍스트는 A + N, 또는 B + N 등이 아니라, 군으로부터 단지 하나의 요소만을 필요로 하는 것으로 해석되어야 한다.

Claims

환자의 종양으로부터 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보를 제공하는 단계;
반응 예측 모델에 의해 테모졸로미드(temozolomide)에 대한 반응 예측을 계산하는 단계로서, 반응 예측 모델이 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보를 사용하는 단계를 포함하는 환자에서의 테모졸로미드에 대한 치료 반응의 예측 방법.
제1항에 있어서, 상기 반응 예측 모델이 K-최근접-이웃 접근법을 사용하는 방법.
제1항 또는 제2항에 있어서, 상기 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보가 하위-그룹화된 방법.
제3항에 있어서, 상기 RNAseq 정보가 3.5의 log2(TPM+1) 컷오프 값을 사용하여 하위-그룹화된 방법.
제3항에 있어서, 상기 단백질 정량적 정보가 200 amol/㎖의 컷오프 값을 사용하여 하위-그룹화된 방법.
제3항에 있어서, 상기 메틸화 정보가 60% 프로모터 CpG 메틸화의 컷오프 값을 사용하여 하위-그룹화된 방법.
제1항 내지 제2항 중 어느 한 항에 있어서, 상기 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보가 FFPE 샘플 또는 신선한 종양 샘플로부터 제공되는 방법.
제1항 내지 제2항 중 어느 한 항에 있어서, 상기 종양이 고형 종양인 방법.
제1항 내지 제2항 중 어느 한 항에 있어서, 상기 종양이 전이성 결장암, 교모세포종 또는 흑색종인 방법.
제1항 내지 제2항 중 어느 한 항에 있어서, 상기 반응 예측 모델이 적어도 85%의 예측 정확도를 갖는 방법.
제1항에 있어서, 상기 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보가 하위-그룹화된 방법.
제11항에 있어서, 상기 RNAseq 정보가 3.5의 log2(TPM+1) 컷오프 값을 사용하여 하위-그룹화된 방법.
제11항에 있어서, 상기 단백질 정량적 정보가 200 amol/㎖의 컷오프 값을 사용하여 하위-그룹화된 방법.
제11항에 있어서, 상기 메틸화 정보가 60% 프로모터 CpG 메틸화의 컷오프 값을 사용하여 하위-그룹화된 방법.
제1항에 있어서, 상기 RNAseq 정보, 단백질 정량적 정보 및 메틸화 정보가 FFPE 샘플 또는 신선한 종양 샘플로부터 제공되는 방법.
제1항에 있어서, 상기 종양이 고형 종양인 방법.
제1항에 있어서, 상기 종양이 전이성 결장암, 교모세포종 또는 흑색종인 방법.
제1항에 있어서, 상기 반응 예측 모델이 적어도 85%의 예측 정확도를 갖는 방법.