KR20200087143A

KR20200087143A - 핫스팟을 이용한 신생항원 동정

Info

Publication number: KR20200087143A
Application number: KR1020207013168A
Authority: KR
Inventors: 브렌던 불릭-술리반; 토마스 프란시스 바우처; 로만 엘렌스키
Original assignee: 그릿스톤 온콜로지, 인코포레이티드
Priority date: 2017-10-10
Filing date: 2018-10-10
Publication date: 2020-07-20
Also published as: EP3694532A4; AU2018348165A1; JP2023065425A; JP2020536553A; TW201923637A; US20190279742A1; JP7227237B2; US20220148681A1; IL273799A; EP3694532A1; WO2019075112A1; TWI816702B; CN111465989A; US11264117B2; CA3078744A1; CN111465989B

Abstract

대상체의 종양세포의 표면 상에 제시될 가능성이 있는 신생항원을 동정하는 방법. 종양 신생항원의 펩타이드 서열은 대상체의 종양 세포를 서열분석함으로써 수득된다. 각각의 신생항원의 펩타이드 서열은 대상체의 뉴클레오티드 서열분석 데이터의 복수의 k-mer 블록 중 하나 이상의 k-mer 블록과 회합되고; 펩타이드 서열 및 회합된 k-mer 블록은 종양-신생항원에 대한 제시 가능성을 생성하기 위해 기계-학습된 제시 모델에 입력되며, 각각의 제시 가능성은 신생항원이 대상체의 종양 세포의 표면 상의 MHC 대립유전자에 의해 제시될 가능성을 나타낸다. 신생항원의 서브셋은 제시 가능성에 기초하여 선택된다.

Description

핫스팟을 이용한 신생항원 동정

종양-특이적 신생항원에 기초한 치료 백신 및 T-세포 요법은 차세대 개인화된 암 면역요법으로 큰 기대를 받고 있다.^1-3 비-소세포 폐암(NSCLC) 및 흑색종과 같은 높은 돌연변이 부하를 가진 암은, 신생항원 생성의 가능성이 상대적으로 높은 것을 고려하면 상기 치료법의 특히 매력적인 표적이다.^4,5 조기에 발견된 증거에 따르면 신생항원-기반 백신접종으로 T-세포 반응이 유도될 수 있으며⁶, 신생항원 표적화된 T-세포-요법은 특정한 상황 하에 선택된 환자에게 종양 퇴화를 유도할 수 있음을 보여준다.⁷MHC 부류 I 및 MHC 부류 II 모두는 T-세포 반응에 영향을 미친다^70-71.

그러나 신생항원 및 신생항원-인식 T-세포의 동정은 종양 반응을 평가하고^77,110, 종양 진화를 조사하고¹¹¹ 차세대 개인화된 요법을 설계하는데 있어서¹¹² 중심적인 도전과제가 되었다. 현재 신생항원 동정 기술은 시간 소모적이고 힘들거나^84,96, 또는 정확하지 않다^87,91-93. 신생항원-인식 T-세포가 TIL의 주요 구성요소이고^{84,96,113,114} 암 환자의 말초 혈액에서 순환한다는 것¹⁰⁷이 최근에 입증되었지만, 신생항원-반응성 T-세포를 동정하는 현재 방법은 다음 3가지 한계의 일부 조합을 갖는다: (1) 그들은 TIL^97,98 또는 백혈구성¹⁰⁷과 같은 수득하기 어려운 임상 시료에 의존하거나 (2) 그들은 펩타이드의 실현불가능하게 큰 라이브러리 스크리닝을 필요로 하거나⁹⁵ (3) 그들은 MHC 다량체에 의존하며, 이는 사실상 소수의 MHC 대립유전자에만 이용가능할 수 있다.

또한, 초기의 방법은 차세대 서열분석, RNA 유전자 발현 및 후보 신생항원 펩타이드의 MHC 결합 친화도의 예측을 이용한 돌연변이-기반 분석을 통합하여 제안되었다⁸. 그러나, 상기 제안된 방법은 유전자 발현 및 MHC 결합 이외에도 많은 단계(예를 들어, TAP 수송, 프로테아솜 절단, MHC 결합, 펩타이드-MHC 복합체의 세포 표면으로의 수송, 및/또는 MHC-I에 대한 TCR 인식; 세포내이입 또는 자가 포식, 세포 외 또는 리소좀 프로테아제를 통한 절단 (예를 들어, 카텝신), HLA-DM-촉매된 HLA 결합을 위한 CLIP 펩타이드와의 경쟁, 펩타이드-MHC 복합체의 세포 표면으로의 수송 및/또는 MHC-II에 대한 TCR 인식)를 포함하는 에피토프 생성 프로세스 전체를 모델링하는데 실패할 수 있다.⁹ 결과적으로, 기존의 방법들은 낮은 양성 예측값(PPV) 감소를 겪을 수 있다(도 1a).

사실상, 여러 그룹에 의해 수행된 종양 세포에 의해 제시된 펩타이드의 분석은, 유전자 발현 및 MHC 결합 친화성을 사용하여, 제시될 것으로 예측되는 펩타이드의 5% 미만이 종양 표면 MHC 상에서 발견될 수 있음을 보여주었다^10,11(도 1b). 결합 예측과 MHC 제시 사이의 이러한 낮은 상관관계는, 돌연변이 단독의 수에 대한 체크포인트 억제제 반응에 대한 결합-제한된 신생항원의 예측 정확도 개선의 최근의 관찰에 의해 더욱 보강되었다.¹²

제시를 예측하기 위한 기존 방법의 상기 낮은 양성 예측값(PPV)은 신생항원-기반 백신 설계 및 신생항원 기반 T-세포 요법에 대한 문제점을 제시한다. 낮은 PPV을 갖는 예측을 사용하여 백신을 설계하는 경우, 대부분의 환자는 치료용 신생항원을 접종받지 않을 것이고, (모든 제시된 펩타이드가 면역원성을 갖는다고 가정할지라도) 여전히 하나 이상의 펩타이드를 접종받는 환자는 거의 없다. 유사하게, 치료적 T- 세포가 낮은 PPV를 갖는 예측에 기초하여 설계되는 경우, 대부분의 환자는 종양 신생항원에 반응성인 T-세포를 수용할 가능성이 없고 예측 후 하류 실험실 기술을 사용하여 예측적 신생항원을 동정하는 시간 및 물리적 자원 비용은 지나치게 높을 수 있다. 따라서 최근의 방법을 이용한 신생항원 백신접종 및 T-세포 요법은 종양이 있는 상당한 수의 대상체에서는 성공할 가능성이 낮다. (도 1c)

또한 이전의 접근법은 시스-작용 돌연변이만을 사용하여 후보 신생항원을 생성했으며, 다중 종양 유형에서 발생하고 많은 유전자의 비정상적인 스플라이싱 (splicing)으로 이어지는 스플라이싱 인자의 돌연변이¹³ 및 프로테아제 절단 부위를 생성하거나 제거하는 돌연변이를 포함하는, 신생 ORF의 추가적인 원천은 고려하지 않았다.

마지막으로, 종양 게놈 및 전사체(transcriptome) 해독 분석에 대한 표준 접근법은 라이브러리 구축, 엑솜(exome) 및 전사체 포획, 서열분석 또는 데이터 분석에서의 차선적인 조건으로 인해, 후보 신생항원을 생성시키는 체세포 돌연변이를 놓칠 수 있다. 마찬가지로, 표준 종양 분석 접근법은 신생항원으로써 우연히 서열 인공물 또는 생식 계열 다형성을 각각 촉진시켜, 백신 용량의 비효율적인 사용 또는 자가-면역 위험성을 유도할 수 있다.

본 명세서에서는 개인화된 암 백신, T-세포 요법, 또는 둘 다에 대한 신생항원을 동정 및 선별하기 위한 최적화된 접근법이 개시되어 있다.

첫째, 차세대 서열분석(NGS)을 이용한 신생항원 동정을 위해 최적화된 종양 엑솜 및 전사체 분석 접근법을 다룬다. 이들 방법은 NGS 종양 분석을 위한 표준 접근법을 기반으로 하여, 모든 부류의 게놈 변형에 대해 신생항원 후보가 최고의 민감도와 특이성을 갖도록 한다. 둘째, 특이성 문제를 극복하고, 백신 내포물(vaccine inclusion)을 위해 개발된 신생항원 및/또는 T-세포 요법의 표적으로서 항-종양 면역력을 유도할 가능성이 높은 것을 보장하기 위해, 고-PPV 신생항원 선택을 위한 신규한 접근법이 제시된다. 이들 접근법은 구현예에 따라, 펩타이드-대립유전자 맵핑 뿐만 아니라 복수의 길이를 갖는 펩타이드에 대한 과-대립유전자(과-allele) 모티프를 공동으로 모델링하고, 상이한 길이의 펩타이드에 걸쳐 통계적인 강도를 공유하는 숙련된 통계적 회귀 또는 비선형 심층 학습 모델을 포함한다. 이들 심층 학습 모델은 또한 펩타이드의 제시 가능성을 결정하는데 펩타이드 서열과 관련된 k-mer 블록에서의 제시 핫스팟의 존재 또는 부재를 기재하는 파라미터를 이용한다. 비선형 심층 학습 모델은 특히 독립적인 동일한 세포에서 상이한 MHC 대립유전자를 치료하도록 설계되고 숙련될 수 있으므로, 서로 간섭하는 선형 모델의 문제를 해결할 수 있다. 마지막으로, 신생항원을 기반으로 한 개인별 백신 디자인 및 제조, 및 T-세포 요법을 위한 개인화된 신생항원-특이적 T-세포의 생산에 대한 추가의 고려 사항들이 다루어진다.

본원에 개시된 모델은 결합 친화성에 대해 훈련된 최신기술 예측변수 및 MS　펩타이드 데이터에 기초한 조기 예측변수를 한 자릿수까지 능가한다. 펩타이드의 제시를 보다 확실하게 예측함으로써, 모델은 제한된 양의 환자 말초 혈액을 사용하고, 환자 당 약간의 펩타이드를 스크리닝하고, 반드시 MHC 다량체에 의존하지 않는 임상적으로 실현가능한 프로세스를 사용하여 개인화된 요법을 위한 신생항원-특이적 또는 종양 항원-특이적 T-세포의 보다 시간- 및 비용-효과적인 동정을 가능하게 한다. 그러나, 또 다른 구현예에서, 본원에 개시된 모델은 신생항원- 또는 종양 항원-특이적 T-세포를 동정하기 위해 스크리닝될 필요가 있는 MHC 다량체에 결합된 펩타이드의 수를 감소시킴으로써, MHC 다량체를 사용하여 종양 항원-특이적 T-세포의 보다 시간- 및 비용-효과적인 동정을 가능하게 하도록 사용될 수 있다.

TIL 네오에피토프 데이터세트 및 유망한 신생항원-반응성 T-세포 동정 과업에 대해 본원에 개시된 모델의 예측 성능은 이제 HLA 프로세싱 및 제시를 모델링함으로써 치료적으로-유용한 네오에피토프 예측을 수득하는 것이 가능하다는 것을 입증한다. 요약하면, 이 작업은 항원-표적화된 면역요법에 대한 실현가능한 인 실리코(in silico) 항원 동정을 제공함으로써, 환자 치유를 향한 진행을 가속화시킨다.

본 발명의 이들 및 다른 특징, 양태 및 이점은 다음의 설명 및 첨부된 도면과 관련하여 더 잘 이해될 것이다:
도 1a는 신생항원 동정에 대한 최근의 임상적 접근법을 도시한다.
도 1b는 예측된 결합 펩타이드의 5% 미만이 종양 세포 상에 존재함을 나타낸다.
도 1c는 신생항원 예측 특이성 문제의 영향을 나타낸다.
도 1d는 결합 예측이 신생항원 동정에 충분하지 않음을 나타낸다.
도 1e는 펩타이드 길이의 함수로서 MHC-I 제시의 확률을 나타낸다.
도 1f는 프로메가(Promega)의 동적 범위 표준으로부터 생성된 예시적인 펩타이드 스펙트럼을 도시한다.
도 1g는 특징의 추가가 어떻게 모델 양성 예측 값을 증가시키는 지를 나타낸다.
도 2a는 일 구현예에 따라, 환자에서 펩타이드 제시의 가능성(likelihood)을 동정하기 위한 환경의 개요이다.
도 2b 및 2c는 일 구현예에 따른, 제시 정보를 획득하는 방법을 설명한다.
도 3은 일 구현예에 따른, 제시 동정 시스템의 컴퓨터 로직 성분을 나타내는 고-수준 블록 선도이다.
도 4는 일 구현예에 따른 훈련 데이터의 예시적인 세트를 설명한다.
도 5는 MHC 대립유전자와 관련된 예시적인 네트워크 모델을 설명한다.
도 6a는 일 구현예에 따라 MHC 대립유전자에 의해 공유된 예시적인 네트워크 모델 NN_H (·)을 설명한다.
도 6b는 다른 구현예에 따라 MHC 대립유전자에 의해 공유된 예시적인 네트워크 모델 NN_H (·)을 설명한다.
도 7은 예시적인 네트워크 모델을 사용하여 MHC 대립유전자와 관련하여 펩타이드에 대한 제시 가능성을 생성하는 것을 설명한다.
도 8은 예시적인 네트워크 모델들을 사용하여 MHC 대립유전자와 관련하여 펩타이드에 대한 제시 가능성을 생성하는 것을 설명한다.
도 9는 예시적인 네트워크 모델들을 사용하여 MHC 대립유전자와 관련하여 펩타이드에 대한 제시 가능성을 생성하는 것을 설명한다.
도 10은 예시적인 네트워크 모델들을 사용하여 MHC 대립유전자와 관련하여 펩타이드에 대한 제시 가능성을 생성하는 것을 설명한다.
도 11은 예시적인 네트워크 모델들을 사용하여 MHC 대립유전자와 관련하여 펩타이드에 대한 제시 가능성을 생성하는 것을 설명한다.
도 12는 예시적인 네트워크 모델들을 사용하여 MHC 대립유전자와 관련된 펩타이드에 대한 제시 가능성을 생성하는 것을 설명한다.
도 13a는 NSCLC 환자에서 돌연변이 부담의 샘플 빈도 분포를 도시한다.
도 13b는 일 구현예에 따른, 환자가 최소 돌연변이 부담을 충족시키는지의 포함 기준에 기초하여 선택된 환자에 대해 모의 백신에서 제시된 신생항원의 수를 도시한다.
도 13c는 일 구현예에 따른, 제시 모델에 기초하여 동정된 치료 서브셋을 포함한 백신과 관련된 선택된 환자와 현재 최신기술 모델을 통해 동정된 치료 서브셋을 포함한 백신과 관련된 선택된 환자 사이의 모의 백신에서 제시된 신생항원의 수를 비교한다.
도 13d는 HLA-A*02:01에 대한 단일 과-대립유전자 제시 모델에 기초하여 동정된 치료 서브셋을 포함한 백신과 관련된 선택된 환자와 HLA-A*02:01 및 HLA-B*07:02에 대하여 두 과-대립유전자 제시 모델에 기초하여 동정된 치료 서브셋을 포함한 백신과 관련된 선택된 환자 사이의 모의 백신에서 제시된 신생항원의 수를 비교한다. 백신 용량은 일 구현예에 따라, v=20 에피토프로 설정된다.
도 13e는 일 구현예에 따른, 돌연변이 부담에 기초하여 선택된 환자와 기대 효용 스코어에 의해 선택된 환자 사이의 모의 백신에서 제시된 신생항원의 수를 비교한다.
도 14는 각각의 모델이 5개의 상이한 홀드-아웃(held-out) 테스트 샘플을 포함하는 테스트 세트에 대해 테스트될 때, 상이한 버전의 MS 모델 및 인간 종양에서 HLA 제시된 펩타이드를 모델링하기 위한 조기 접근법²⁹의 40% 리콜에서 양성 예측값(PPV)을 비교하며, 각각의 테스트 샘플은 1:2500 비의 제시 대 비-제시 펩타이드를 갖는 동정된 종양 샘플을 포함한다.
도 15a는 모델이 5개의 홀드-아웃 테스트 샘플에서 테스트 될 때 제시 핫스팟 파라미터를 사용하는 제시 모델과 제시 핫스팟 파라미터를 사용하지 않는 제시 모델의 리콜에 대한 평균 양의 예측 값 (PPV)을 비교한다.
도 15b는 모델이 홀드-아웃 테스트 샘플 0에서 테스트 될 때 제시 핫스팟 파라미터를 사용하는 제시 모델과 제시 핫스팟 파라미터를 사용하지 않는 제시 모델에 대한 정밀도 및 리콜 곡선을 비교한다.
도 15c는 모델이 홀드-아웃 테스트 샘플 1에서 테스트 될 때 제시 핫스팟 파라미터를 사용하는 제시 모델과 제시 핫스팟 파라미터를 사용하지 않는 제시 모델의 정밀도 및 리콜 곡선을 비교한다.
도 15d는 모델이 홀드-아웃 테스트 샘플 2에서 테스트 될 때 제시 핫스팟 파라미터를 사용하는 제시 모델과 제시 핫스팟 파라미터를 사용하지 않는 제시 모델의 정밀도 및 리콜 곡선을 비교한다.
도 15e는 모델이 홀드 아웃 테스트 샘플 3에서 테스트 될 때 제시 핫스팟 파라미터를 사용하는 제시 모델과 제시 핫스팟 파라미터를 사용하지 않는 제시 모델의 정밀도 및 리콜 곡선을 비교한다.
도 15f는 모델이 홀드 아웃 테스트 샘플 4에서 테스트 될 때 제시 핫스팟 파라미터를 사용하는 제시 모델과 제시 핫스팟 파라미터를 사용하지 않는 제시 모델의 정밀도 및 리콜 곡선을 비교한다.
도 16은 적어도 하나의 기존 T-세포 반응을 갖는 환자로부터 채취한 테스트 샘플을 포함하는 테스트 세트에 대한, 제시 핫스팟 파라미터를 사용하는 제시 모델 및 제시 핫스팟 파라미터를 사용하지 않는 제시 모델에 의해 식별된 상위 5, 10, 20 및 30 등급 펩타이드에 대해 T-세포에 의해 인식된 체세포 돌연변이에 걸쳐있는 펩타이드의 비율을 비교한다.
도 17a는 9 명의 환자에 대한 환자-특이적 신생항원 펩타이드 풀에 대한 T-세포 반응의 검출을 도시한다.
도 17b는 4 명의 환자에 대한 개별 환자-특이적 신생항원 펩타이드에 대한 T-세포 반응의 검출을 도시한다.
도 17c는 환자 CU04에 대한 ELISpot 웰의 예시적인 이미지를 도시한다.
도 18a는 HLA-매칭된 건강한 공여자에서 신생항원을 사용한 대조군 실험으로부터의 결과를 도시한다.
도 18b는 HLA-매칭된 건강한 공여자에서 신생항원을 사용한 대조군 실험으로부터의 결과를 도시한다.
도 19는 도 17a에 도시된 각각의 공여자 및 각각의 시험관내 확장에 대하여 PHA 양성 대조군에 대한 T-세포 반응의 검출을 도시한다.
도 20a는 환자 CU04에 대한 풀 #2에서 각각의 개별 환자-특이적 신생항원 펩타이드에 대한 T-세포 반응의 검출을 도시한다.
도 20b는 환자 CU04의 3회 방문 각각 및 환자 1-024-002의 2회 방문 각각에 대하여 개별 환자-특이적 신생항원 펩타이드에 대한 T-세포 반응의 검출을 도시하며, 각각의 방문은 상이한 시점에 발생한다.
도 20c는 환자 CU04의 2회 방문 각각 및 환자 1-024-002의 2회 방문 각각에 대하여 개별 환자-특이적 신생항원 펩타이드 및 환자-특이적 신생항원 펩타이드 풀에 대한 T-세포 반응의 검출을 도시하며, 각각의 방문은 상이한 시점에 발생한다.
도 21는 도 17a의 환자에 대하여 2개의 환자-특이적 신생항원 펩타이드 풀 및 DMSO 음성 대조군에 대한 T-세포 반응의 검출을 도시한다.
도 22는 MHC 부류 II 분자에 의한 신생에피토프의 제시를 예측할 때, 제시 핫스팟 파라미터를 사용하는 제시 모델과 제시 핫스팟 파라미터를 사용하지 않는 제시 모델의 예측 성능을 비교한다.
도 23은 NSCLC 환자의 말초 혈액으로부터 신생항원-특이적 기억 T-세포의 TCR을 서열분석하는 방법을 도시한다.
도 24는 TCR을 수용자 세포로 도입하기 위한 TCR 작제물의 예시적인 구현예를 도시한다.
도 25는 TCR을 요법 개발을 위한 발현 시스템으로 클로닝하기 위한 예시적인 P526 작제물 백본 뉴클레오티드 서열을 도시한다.
도 26은 환자 신생항원-특이적 TCR 클론형 1 TCR을 요법 개발을 위한 발현 시스템으로 클로닝하기 위한 예시적인 작제물 서열을 도시한다.
도 27은 환자 신생항원-특이적 TCR, 클론형 3을 요법 개발을 위한 발현 시스템으로 클로닝하기 위한 예시적인 작제물 서열을 도시한다.
도 28는 한 구현예에 따른, 맞춤형, 신생항원-특이적 치료를 환자에게 제공하는 방법의 흐름도이다.
도 29은 도 1 및 3에 도시된 개체들을 구현하기 위한 예시적인 컴퓨터를 설명한다.

I. 정의

일반적으로, 청구범위 및 명세서에서 사용된 용어는 당해 분야의 숙련가가 이해하는 명백한 의미를 갖는 것으로 해석되도록 의도된다. 명확한 추가 설명을 제공하기 위해 특정한 용어가 아래에 정의된다. 명백한 의미와 제공된 정의가 상충하는 경우, 제공된 정의가 사용되어야 한다.

본 명세서에서 사용된 용어 "항원"은 면역 반응을 유도하는 물질이다.

본 명세서에서 사용된 용어 "신생항원(neoantigen)"은 예를 들어, 종양 세포에서의 돌연변이 또는 종양 세포에 특이적인 번역후 변형을 통해 상응하는 야생형, 모(parental) 항원과 구별되게 하는 적어도 하나의 변경을 갖는 항원이다. 신생항원은 폴리펩타이드 서열 또는 뉴클레오타이드 서열을 포함할 수 있다. 돌연변이는 프레임 이동 또는 비-격자 이동 인델(indel), 미스센스(missense) 또는 논센스 (nonsense) 치환, 스플라이스 부위 변경, 게놈 재배열 또는 유전자 융합, 또는 신생 ORF를 야기하는 임의의 게놈 또는 발현 변경을 포함할 수 있다. 돌연변이는 스플라이스 변이(splice variant)도 포함할 수 있다. 종양 세포에 특이적인 번역후 변형은 비정상적인 인산화를 포함할 수 있다. 종양 세포에 특이적인 번역후 변형은 또한 프로테아솜-생성된 스플라이싱된 항원을 포함할 수 있다. Liepe 등, HLA 부류 I 리간드의 많은 부분은 프로테아솜-생성된 스플라이싱된 펩타이드이다; Science. 2016 Oct 21; 354(6310): 354-358를 참고하라.

본 명세서에서 사용된 용어 "종양 신생항원(tumor neoantigen)"은, 대상체의 종양 세포 또는 조직에는 존재하지만 대상체의 상응하는 정상 세포 또는 조직에는 존재하지 않는 신생항원이다.

본 명세서에서 사용된 용어 "신생항원-기반 백신(neoantigen-based vaccine)"은, 하나 이상의 신생항원, 예컨대 복수의 신생항원에 기반을 둔 백신 구조물이다.

본 명세서에서 사용된 용어 "후보 신생항원(candidate neoantigen)"은, 신생항원을 나타낼 수 있는 신규한 서열을 생성하는 돌연변이 또는 다른 비정상이다.

본 명세서에서 사용된 용어 "인코딩 영역(coding region)"은, 단백질을 인코딩하는 유전자의 부분(들)이다.

본 명세서에서 사용된 용어 "인코딩 돌연변이(coding mutation)"는, 인코딩 영역에서 발생하는 돌연변이이다.

본 명세서에서 사용된 용어 "ORF"는, 열린 해독틀(open reading frame)을 의미한다.

본 명세서에서 사용된 용어 "신생 ORF (NEO-ORF)"는, 돌연변이 또는 다른 비정상, 예컨대 스플라이싱으로부터 발생하는 종양-특이적 ORF이다.

본 명세서에서 사용된 용어 "미스센스 돌연변이"는, 한 아미노산에서 또다른 아미노산으로의 치환을 일으키는 돌연변이이다.

본 명세서에서 사용된 용어 "논센스 돌연변이"는, 아미노산에서 정지 코돈으로의 치환을 일으키는 돌연변이이다.

본 명세서에서 사용된 용어 "격자 이동 돌연변이(frameshift mutation)"는, 단백질의 프레임에서 변화를 일으키는 돌연변이이다.

본 명세서에서 사용된 용어 "인델(indel)"은, 하나 이상의 핵산의 삽입 또는 결실이다.

본 명세서에서 사용된 2종 이상의 핵산 또는 폴리펩타이드 서열의 문맥에서의 용어 "동일성(identity)"은, (예를 들어, BLASTP 및 BLASTN 또는 숙련된 기술자가 이용할 수 있는 다른 알고리즘)에 의한 서열 비교 알고리즘 또는 육안 검사에 중 하나를 사용하여 측정된 바와 같이, 최대 관련성을 위해 비교 및 정렬된 경우의 동일한 뉴클레오타이드 또는 아미노산 잔기의 지정된 백분율을 갖는 2종 이상의 서열 또는 하위서열을 지칭한다. 응용예에 따라, 퍼센트 "동일성"은 비교되는 서열의 영역, 예를 들어 기능적 도메인 상에 존재할 수도 있고, 또는 비교될 두 서열의 전장(full lenght)에 존재할 수도 있다.

서열 비교를 위해, 통상 하나의 서열은 시험 서열이 비교되는 참조 서열로서 작용한다. 서열 비교 알고리즘을 사용할 때, 시험 서열과 참조 서열이 컴퓨터에 입력되고, 필요하다면 하위서열 좌표가 지정되며, 서열 알고리즘 프로그램 파라미터가 지정된다. 이어서, 서열 비교 알고리즘은 지정된 프로그램 파라미터에 기초하여, 참조 서열에 비교한 시험 서열(들)의 서열 동일성 백분율을 계산한다. 대안적으로, 서열 유사성 또는 비유사성은 특정 뉴클레오타이드들, 또는 번역된 서열에 대해서는 선택된 서열 위치(예를 들어, 서열 모티프)의 아미노산의 조합된 존재 또는 부재에 의해 확립될 수 있다.

비교를 위한 서열의 최적 정렬은, 예를 들어 Smith & Waterman의 국부 상동성 알고리즘 [Adv. Appl. Math. 2: 482(1981)]에 의해, Needleman & Wunsch, J.의 상동성 정렬 알고리즘 [Mol. Biol. 48: 443 (1970)]에 의해, Pearson & Lipman의 유사성 방법 연구 [Proc. Nat'l. Acad. Sci. USA 85: 2444 (1988)]에 의해, 이들 알고리즘 [위스콘신 유전학 소프트웨어 패키지의 GAP, BESTFIT, FASTA, 및 TFASTA (유전학 컴퓨터 그룹, 575 Science Dr., 매디슨, 위스콘신)]의 컴퓨터화된 실행에 의해 또는 육안 검사(일반적으로 Ausubel 등, 아래 참조)에 의해 진행될 수 있다.

퍼센트 서열 동일성 및 서열 유사성을 결정하기에 적합한 알고리즘의 한 예는 BLAST 알고리즘이며, 이는 Altschul 등, J. Mol. Biol. 215: 403-410(1990)에 기술되어 있다. BLAST 분석을 수행하는 소프트웨어는 National Center for Biotechnology Information을 통해 공공연하게 이용가능하다.

본 명세서에서 사용된 용어 "비-정지 또는 연속-판독(non-stop or read-through)"은, 원래의 정지 코돈의 제거를 일으키는 돌연변이이다.

본 명세서에서 사용된 용어 "에피토프(epitope)"는, 항체 또는 T-세포 수용체가 통상 결합하는 항원의 특이적인 부분이다.

본 명세서에서 사용된 용어 "면역원성(immunogenic)"은, 예를 들어, T-세포, B 세포 또는 둘 모두를 통해 면역 반응을 유도할 수 있는 능력이다.

본 명세서에서 사용된 용어 "HLA 결합 친화성(HLA binding affinity)" "MHC 결합 친화성(MHC binding affinity)"은, 특이적인 항원과 특이적인 MHC 대립유전자 사이의 결합 친화성을 의미한다.

본 명세서에서 사용된 용어 "유인물질(bait)"은, 샘플로부터 DNA 또는 RNA의 특이적 서열을 풍부하게 하는데 사용되는 핵산 프로브이다.

본 명세서에서 사용된 용어 "변이(variant)"는, 대상체의 핵산과 대조군으로 사용되는 참조 인간 게놈 간의 차이다.

본 명세서에서 사용된 용어 "변이 결정(variant call)"은, 통상 서열분석으로부터 변이의 존재를 알고리즘적으로 결정하는 것이다.

본 명세서에서 사용된 용어 "다형성(polymorphism)"은, 생식 계열 변이, 즉 개체의 모든 DNA-보유 세포에서 발견되는 변이이다.

본 명세서에서 사용된 용어 "체세포 변이(somatic variant)"는, 개체의 비-생식 계열 세포에서 발생하는 변이이다.

본 명세서에서 사용된 용어 "대립유전자(allele)"는, 한 버전의 유전자 또는 한 버전의 유전자 서열 또는 한 버전의 단백질이다.

본 명세서에서 사용된 용어 "HLA 유형(HLA type)"은, HLA 유전자 대립유전자의 보완물이다.

본 명세서에서 사용된 용어 "논센스-매개된 붕괴(nonsense-medicated decay)" 또는 "NMD"는, 조기 중단 코돈으로 인해 세포가 mRNA를 분해하는 것이다.

본 명세서에서 사용된 용어 "몸통 돌연변이(truncal mutation)"는, 종양의 발달 초기에 발생하고, 종양 세포의 상당 부분에 존재하는 돌연변이이다.

본 명세서에서 사용된 용어 "서브클로날 돌연변이(subclonal mutation)"는 종양의 발생에서 후기에 발생하고, 종양 세포의 서브셋에만 존재하는 돌연변이이다.

본 명세서에서 사용된 용어 "엑솜(exome)"은, 단백질을 인코딩하는 게놈의 서브셋이다. 엑솜은 게놈의 전체적인 엑솜일 수 있다.

본 명세서에서 사용된 용어 "로지스틱 회귀(logistic regression)"는, 통계로부터의 2원 데이터에 대한 회귀 모델인데, 여기서 종속 변수가 1과 같을 확률의 로짓(logit)은 종속 변수의 선형 함수로서 모델링된다.

본 명세서에서 사용된 용어 "신경망(neural network)"은, 확률적 구배 강하 및 역-전파를 통해 통상 훈련된 요소별 비선형성이 뒤따르는 선형 변환의 다중 층으로 구성된 분류 또는 회귀에 대한 기계 학습 모델이다.

본 명세서에서 사용된 용어 "단백체(proteome)"는, 세포, 세포 그룹 또는 개인에 의해 발현 및/또는 번역되는 모든 단백질들의 세트이다.

본 명세서에서 사용된 용어 "펩타이돔(peptidome)"은, MHC-I 또는 MHC-Ⅱ에 의해 세포 표면 상에 제시되는 모든 펩타이드들의 세트이다. 펩타이돔은 세포의 특성 또는 세포 집단을 지칭할 수 있다(예를 들어, 종양 펩타이돔은 종양을 포함하는 모든 세포의 펩타이돔의 합체를 의미함).

본 명세서에서 사용된 용어 "ELISPOT"은, 인간 및 동물에서 면역 반응을 모니터링하는 일반적인 방법인 효소-결합 면역흡착 스폿 분석(Enzyme-linked immunosorbent sopt assay)을 의미한다.

본 명세서에서 사용된 용어 "덱스트라머(dextramer)"는, 유동 세포계측법에서 항원-특이적 T-세포 염색에 사용되는 덱스트란-기반 펩타이드-MHC 다합체이다.

본원에 사용된 용어 "MHC 다량체"는 복수의 펩타이드-MHC 단량체 단위를 포함하는 펩타이드-MHC 복합체이다.

본원에 사용 된 용어 "MHC 사량체"는 4개의 펩타이드-MHC 단량체 단위를 포함하는 펩타이드-MHC 복합체이다.

본 명세서에서 사용된 용어 "내성(tolerance) 또는 면역 내성(immune tolerance)"은, 하나 이상의 항원, 예를 들어 자기-항원에 대한 면역 비-반응성 상태이다.

본 명세서에서 사용된 용어 "중심 내성(central tolerance)"은, 자기-반응성 T-세포 클론을 결실시키거나 자기-반응성 T-세포 클론을 면역억제성 조절 T-세포(Tregs)로 분화하는 것을 촉진시킴으로써, 흉선에서 영향을 받는 내성이다.

본 명세서에서 사용된 용어 "말초 내성(peripheral tolerance)"은, 중심 내성을 견뎌내거나 T-세포가 Tregs로 분화되도록 촉진하는 자기 반응성 T-세포를 하향 조절하거나 또는 애네르기화(anergizing)시킴으로써, 말초에서 영향을 받는 내성이다.

용어 "샘플"은, 정맥천자, 배설, 사정(ejaculation), 마사지, 생검, 침상흡인(needle aspirate), 세척 샘플, 스크래핑(scraping), 외과적 절개 또는 개입 또는 당해 분야에 공지된 다른 수단을 포함하는 수단에 의해 대상체에서 채취한 단일 세포 또는 다중 세포 또는 세포 단편 또는 체액의 분취액을 포함할 수 있다.

용어 "대상체(subject)"는, 생체내, 생체외 또는 시험관내, 남성 또는 여성에 관계없이, 세포, 조직 또는 유기체, 인간 또는 비-인간을 포함한다. 용어 대상체는 인간을 포함한 포괄적인 포유동물이다.

용어 "포유동물"은, 인간과 비-인간을 포함하며, 인간, 비-인간 영장류, 개과, 고양이과, 쥐과, 소, 말 및 돼지를 포함하지만, 이에 한정되지는 않는다.

용어 "임상 인자(clinical factor)"는, 대상체의 상태, 예를 들어 질병 활성도 또는 중증도의 척도를 지칭한다. "임상 인자"는 비-샘플 마커, 및/또는 연령 및 성별과 같은 대상체의 다른 특성을 포함하나 이에 제한되지 않는 대상체의 건강 상태의 모든 마커를 포함한다. 임상 인자는 대상체 또는 결정된 조건 하에서의 대상체로부터의 샘플(또는 샘플 모집단)의 평가로부터 얻을 수 있는 점수, 값 또는 일련의 값일 수 있다. 임상 인자는 또한 마커 및/또는 다른 파라미터, 예컨대 유전자 발현 대리체에 의해 예상될 수 있다. 임상 인자에는 종양 유형, 종양 하위유형 및 흡연 이력이 포함될 수 있다.

약어: MHC: 주조직적합성 복합체; HLA: 인간 백혈구 항원, 또는 인간 MHC 유전자 좌위; NGS: 차세대 서열분석; PPV: 양성 예측값; TSNA: 종양-특이적 신생항원; FFPE: 포르말린-고정된 파라핀-포매; NMD: 논센스-매개된 붕괴; NSCLC: 비-소세포 폐암; DC: 수지상 세포.

명세서 및 첨부된 청구범위에서 사용된 바와 같이, 단수 형태는 문맥 상 다르게 명확히 지시하지 않는 한 복수의 지시대상을 포함한다는 것을 알아야 한다.

본 명세서에서 직접 정의되지 않은 임의의 용어는 본 발명의 당해 분야 내에서 이해되는 바와 같이 통상적으로 관련된 의미를 갖는 것으로 이해되어야 한다. 특정한 용어들은 본 발명의 양태의 조성물, 디바이스, 방법 등, 및 이들을 제조하거나 사용하는 방법을 기술할 때 종사자에게 추가적인 지침을 제공하기 위해 본원에 논의된다. 동일한 것을 여러 가지 방법으로 언급할 수 있음이 인정될 것이다. 결과적으로 본원에 언급된 하나 이상의 용어들에 대안적인 언어 및 동의어가 사용될 수 있다. 용어가 본원에서 정교화되거나 논의되는지의 여부는 중요하지 않다. 일부 동의어 또는 대체가능한 방법, 물질 등이 제공된다. 하나 또는 몇개의 동의어 또는 동등한 표현의 설명은 명백하게 언급하지 않는 한 다른 동의어 또는 동등한 표현의 사용을 배제하지 않는다. 용어들의 예를 포함하는 예들의 사용은 단지 설명하기 위한 것이며, 본 발명의 양태의 범주 및 의미를 제한하지 않는다.

명세서 전체에 인용된 모든 참고문헌, 발행된 특허 및 특허 출원은 모든 목적을 위해 그 전문이 본 명세서에 참고로 포함된다.

II. 신생항원을 동정하는 방법

종양 세포의 표면 상에 제시될 가능성이 있는 대상체의 종양 세포로부터 신생항원을 동정하는 방법이 본원에 개시된다. 상기 방법은 대상체의 종양 세포 뿐만 아니라 정상 세포로부터 엑솜(exome), 전사체(transcriptome), 및/또는 전체 게놈 뉴클레오티드 서열분석 데이터를 수득하는 단계를 포함한다. 이 뉴클레오티드 서열분석 데이터를 사용하여 신생항원 세트에서 각각의 신생항원의 펩타이드 서열을 수득한다. 신생항원 세트는 종양 세포로부터의 뉴클레오티드 서열분석 데이터 및 정상 세포로부터의 뉴클레오티드 서열분석 데이터를 비교함으로써 동정된다. 구체적으로, 신생항원 세트에서 각각의 신생항원의 펩타이드 서열은 대상체의 정상 세포로부터 동정된 상응하는 야생형 펩타이드 서열과 구별되는 적어도 하나의 변경을 포함한다. 상기 방법은 신생항원 세트에서 각각의 신생항원의 펩타이드 서열을 상응하는 수치상 벡터로 인코딩하는 단계를 추가로 포함한다. 각각의 수치상 벡터는 펩타이드 서열을 구성하는 아미노산 및 펩타이드 서열에서 아미노산의 위치를 기재하는 정보를 포함한다. 상기 방법은 각각의 신생항원의 펩타이드 서열을 대상체의 뉴클레오티드 서열 분석 데이터의 복수의 k-mer 블록의 하나 이상의 k-mer 블록과 회합하는 단계를 포함한다. 상기 방법은 수치상 벡터 및 회합된 k-mer 블록을 기계-학습 제시 모델에 입력하여 신생항원 세트에서 각각의 신생항원에 대해 제시 가능성(likelihood)를 생성하는 단계를 추가로 포함한다. 각각의 제시 가능성은 상응하는 신생항원이 대상체의 종양 세포의 표면에서 MHC 대립유전자에 의해 제시될 가능성을 나타낸다. 기계-학습 제시 모델은 복수의 파라미터 및 함수를 포함한다. 복수의 파라미터는 훈련 데이터 세트에 기초하여 동정된다. 훈련 데이터 세트는, 복수의 샘플에서 각각의 샘플에 대해, 샘플에 제시될 때 동정된 MHC 대립유전자 세트에서 적어도 하나의 MHC 대립유전자에 결합된 펩타이드의 존재를 측정하는 질량 분광법에 의해 수득된 표지, 펩타이드를 구성하는 아미노산 및 펩타이드에서 아미노산의 위치를 기재하는 정보를 포함하는 수치상 벡터로서 인코딩된 훈련 펩타이드 서열 및 샘플의 각각의 훈련 펩타이드 서열에 대해, 훈련 펩타이드 서열과 훈련 펩타이드 서열의 뉴클레오티드 서열 분석 데이터의 복수의 k-mer 블록의 하나 이상의 k-mer 블록 사이의 회합을 포함한다. 함수는 기계-학습 제시 모델에 의한 입력값으로 받은 수치상 벡터와 수치상 벡터, 회합된 k-mer 블록, 및 복수의 파라미터에 기초하여 기계-학습 제시 모델에 의한 출력값으로 생성된 제시 가능성 사이의 관계를 나타낸다. 상기 방법은 제시 가능성에 기초하여 신생항원 세트의 서브셋을 선택하여 선택된 신생항원 세트를 생성하고, 선택된 신생항원의 세트를 반환하는 단계를 추가로 포함한다.

일부 구현예에서, 수치상 벡터를 기계-학습 제시 모델에 입력하는 단계는 기계-학습 제시 모델을 신생항원의 펩타이드 서열에 적용하여 MHC 대립유전자 각각에 대한 의존성 스코어를 생성하는 단계를 포함한다. MHC 대립유전자에 대한 의존성 스코어는 MHC 대립유전자가 펩타이드 서열의 특정 위치에서 특정 아미노산에 기초하여 신생항원을 제시할지 여부를 나타낸다. 추가 구현예에서, 수치상 벡터를 기계-학습 제시 모델에 입력하는 단계는 의존성 스코어를 변환하여 상응하는 MHC 대립유전자가 상응하는 신생항원을 제시할 가능성을 나타내는 각각의 MHC 대립유전자에 대한 상응하는 과-대립유전자 가능성을 생성하는 단계, 및 과-대립유전자 가능성을 조합하여 신생항원의 제시 가능성을 생성하는 단계를 추가로 포함한다. 일부 구현예에서, 의존성 스코어를 변환하는 단계는 신생항원의 제시를 MHC 대립유전자에 걸친 상호 배타적인 것으로 모델링한다. 대안적인 구현예에서, 수치상 벡터를 기계-학습 제시 모델에 입력하는 단계는 의존성 스코어의 조합을 변환하여 제시 가능성을 생성하는 단계를 추가로 포함한다. 이러한 구현예에서, 의존성 스코어의 조합을 변환하는 단계는 신생항원의 제시를 MHC 대립유전자 사이를 방해하는 것으로 모델링한다.

일부 구현예에서, 제시 가능성 세트는 하나 이상의 대립유전자 비상호작용 특징에 의해 추가로 동정된다. 이러한 구현예에서, 상기 방법은 기계-학습 제시 모델을 대립유전자 비상호작용 특징에 적용하여 대립유전자 비상호작용 특징에 대한 의존성 스코어를 생성하는 단계를 추가로 포함한다. 의존성 스코어는 상응하는 신생항원의 펩타이드 서열이 대립유전자 비상호작용 특징에 기초하여 제시될지 여부를 나타낸다. 일부 구현예에서, 하나 이상의 대립유전자 비상호작용 특징은 각각의 신생항원의 펩타이드 서열의 각각의 k-mer 블록에 대한 제시 핫스팟의 존재 또는 부재 중 하나를 나타내는 값을 포함한다.

일부 구현예에서, 상기 방법은 각각의 MHC 대립유전자에 대한 의존성 스코어를 대립유전자 비상호작용 특징에 대한 의존성 스코어와 조합하는 단계, 각각의 MHC 대립유전자 대해 조합된 의존성 스코어를 변환하여 각각의 MHC 대립유전자에 대한 과-대립유전자 가능성을 생성하는 단계, 및 과-대립유전자 가능성을 조합하여 제시 가능성을 생성하는 단계를 추가로 포함한다. MHC 대립유전자에 대한 과-대립유전자 가능성은 MHC 대립유전자가 상응하는 신생항원을 제시할 가능성을 나타낸다. 대안적인 구현예에서, 상기 방법은 MHC 대립유전자에 대한 의존성 스코어 및 대립유전자 비상호작용 특징에 대한 의존성 스코어를 조합하는 단계, 및 조합된 의존성 스코어를 변환하여 제시 가능성을 생성하는 단계를 추가로 포함한다.

일부 구현예에서, MHC 대립유전자는 2개 이상의 상이한 MHC 대립유전자를 포함한다.

일부 구현예에서, 펩타이드 서열은 9개 아미노산 이외의 길이를 갖는 펩타이드 서열을 포함한다.

일부 구현예에서, 펩타이드 서열을 인코딩하는 단계는 원-핫(one-hot) 인코딩 방식을 사용하여 펩타이드 서열을 인코딩하는 단계를 포함한다.

일부 구현예에서, 복수의 샘플은 단일 MHC 대립유전자를 발현하도록 조작된 세포주, 복수의 MHC 대립유전자를 발현하도록 조작된 세포주, 복수의 환자로부터 수득되거나 유래된 인간 세포주, 복수의 환자로부터 수득된 신선한 또는 동결된 종양 샘플, 및 복수의 환자로부터 수득된 신선한 또는 동결된 조직 샘플 중 적어도 하나를 포함한다.

일부 구현예에서, 훈련 데이터 세트는 펩타이드 중 적어도 하나에 대한 펩타이드-MHC 결합 친화성 측정과 관련된 데이터, 및 펩타이드 중 적어도 하나에 대한 펩타이드-MHC 결합 안정성 측정과 관련된 데이터 중 적어도 하나를 추가로 포함한다.

일부 구현예에서, 제시 가능성 세트는 RNA-seq 또는 질량 분광법에 의해 측정된 바와 같이, 대상체에서 MHC 대립유전자의 발현 수준에 의해 추가로 동정된다.

일부 구현예에서, 제시 가능성 세트는 신생항원 세트에서의 신생항원과 MHC 대립유전자 사이의 예측된 친화성, 및 신생항원 인코딩된 펩타이드-MHC 복합체의 예측된 안정성 중 적어도 하나를 포함하는 특징에 의해 추가로 동정된다.

일부 구현예에서, 수치상 가능성 세트는 그의 공급원 단백질 서열 내에서 신생항원 인코딩된 펩타이드 서열에 측접한 C-말단 서열, 및 그의 공급원 단백질 서열 내에서 신생항원 인코딩된 펩타이드 서열에 측접한 N-말단 서열 중 적어도 하나를 포함하는 특징에 의해 추가로 동정된다.

일부 실시양태에서, 선택된 신생항원을 선택하는 것은 기계-학습된 제시 모델에 기초하여 선택되지 않은 신생항원에 비해 종양 세포 표면 상에 제시될 가능성이 증가된 신생항원을 선택하는 단계를 포함한다.

일부 실시양태에서, 선택된 신생항원을 선택하는 것은 기계-학습된 제시 모델에 기초하여 선택되지 않은 신생항원에 비해 상기 대상체에서 종양-특이적 면역 반응을 유도할 수 있는 가능성이 증가된 신생항원을 선택하는 단계를 포함한다.

일부 실시양태에서, 선택된 신생항원을 선택하는 것은 기계-학습된 제시 모델에 기반하여 비선택된 신생항원에 비해 훈련 항원 제시 세포(APC)에 의해 미접촉 T-세포에 지시될 수 있는 가능성이 증가한 신생항원을 선택하는 단계를 포함한다. 이러한 실시양태에서, 상기 APC는 선택적으로 수지상 세포(DC)이다.

일부 실시양태에서, 선택된 신생항원을 선택하는 것은 기계-학습된 제시 모델에 기초하여 선택되지 않은 신생항원에 비해 중추 또는 말초 내성을 통해 억제될 가능성이 감소된 신생항원을 선택하는 단계를 포함한다.

일부 실시양태에서, 선택된 신생항원을 선택하는 것은 기계-학습된 제시 모델에 기초하여 선택되지 않은 신생항원에 비해 대상체의 정상 조직에 대한 자가면역 반응을 유도할 수 있는 가능성이 감소된 신생항원을 선택하는 단계를 포함한다.

일부 구현예에서, 하나 이상의 종양 세포는 폐암, 흑색종, 유방암, 난소암, 전립선암, 신장암, 위암, 결장암, 고환암, 두경부암, 췌장암, 뇌암, B-세포 림프종, 급성 골수성 백혈병, 만성 골수성 백혈병, 만성 림프구성 백혈병, 및 T-세포 림프구성 백혈병, 비소세포 폐암, 및 소세포 폐암으로 이루어진 군으로부터 선택된다.

일부 구현예에서, 상기 방법은 선택된 신생항원 세트로부터 개인화된 암 백신을 구성하기 위한 출력값을 생성하는 단계를 추가로 포함한다. 이러한 구현예에서, 개인화된 암 백신에 대한 출력값은 선택된 신생항원 세트를 인코딩하는 적어도 하나의 펩타이드 서열 또는 적어도 하나의 뉴클레오티드 서열을 포함할 수 있다.

일부 구현예에서, 기계-학습 제시 모델은 신경 네트워크 모델이다. 이러한 구현예에서, 신경 네트워크 모델은 MHC 대립유전자에 대한 복수의 네트워크 모델을 포함할 수 있으며, 각각의 네트워크 모델은 MHC 대립유전자의 상응하는 MHC 대립유전자에 할당되고 하나 이상의 층에서 할당된 일련의 노드를 포함한다. 이러한 구현예에서, 신경 네트워크 모델은 신경 네트워크 모델의 파라미터를 업데이트함으로써 훈련될 수 있으며, 적어도 2개의 네트워크 모델의 파라미터는 적어도 하나의 훈련 반복을 위해 공동으로 업데이트된다. 일부 구현예에서, 기계-학습 제시 모델은 노드의 하나 이상의 층을 포함하는 심층 학습 모델일 수 있다.

일부 구현예에서, MHC 대립유전자는 부류 I MHC 대립유전자이다.

컴퓨터 프로세서 및 컴퓨터 프로그램 명령을 저장하는 메모리를 포함하는 컴퓨터 시스템이 또한 본원에 개시된다. 컴퓨터 프로그램 명령어가 컴퓨터 프로세서에 의해 실행될 때, 명령어는 컴퓨터 프로세서로 하여금 전술된 임의의 방법을 수행하게한다.

III. 신생항원에서 종양 특이적 돌연변이의 동정

또한, 특정 돌연변이(예를 들어, 암세포에 존재하는 변이 또는 대립유전자)를 동정하는 방법이 본 명세서에 개시되어 있다. 특히, 이들 돌연변이는 암을 갖는 대상체의 암세포의 게놈, 전사체, 단백체, 또는 엑솜에는 존재할 수 있지만, 대상체의 정상 조직에는 존재하지 않을 수 있다.

종양의 유전적 돌연변이는 종양에서만 배타적으로 단백질의 아미노산 서열의 변화를 유도하는 경우 종양의 면역학적 표적화에 유용하다고 간주될 수 있다. 유용한 돌연변이는 하기를 포함한다: (1) 단백질내 상이한 아미노산으로 이어지는 비-동의 돌연변이; (2) 정지 코돈이 변형 또는 결실되어 C-말단에서 새로운 종양-특이적 서열을 갖는 더 긴 단백질의 번역을 유도하는 번역초과(read-through) 돌연변이; (3) 성숙한 mRNA에 인트론을 포함시켜 특유의 종양-특이적 단백질 서열을 포함시키는 스플라이스 부위 돌연변이; (4) 2개의 단백질의 접합부에서 종양-특이적 서열을 갖는 키메라 단백질을 생성시키는 염색체 재배열(즉, 유전자 융합); (5) 새로운 종양-특이적 단백질 서열을 갖는 신규한 열린 해독틀을 이끄는 격자 이동 돌연변이 또는 결실.　 돌연변이는 또한, 비프레임 이동 indel, 미스센스 또는 논센스 치환, 스플라이스 부위 변경, 게놈 재배열 또는 유전자 융합, 또는 신생 ORF를 생성시키는 임의의 게놈 또는 발현 변경 중 하나 이상을 포함할 수 있다.

종양 세포에서의, 예를 들어 스플라이스-부위, 격자 이동, 초과번역 또는 유전자 융합 돌연변이로부터 발생하는 돌연변이를 갖는 펩타이드 또는 돌연변이된 폴리펩타이드 종양 대 정상 세포에서 DNA, RNA 또는 단백질을 서열분석함으로써 동정될 수 있다. 　

또한 돌연변이에는 이전에 동정된 종양 특이적 돌연변이가 포함될 수 있다. 알려진 종양 돌연변이는 암에 있어서 체세포 돌연변이의 카탈로그(Catalogue of Somatic Mutations in Cancer, COSMIC) 데이터베이스에서 찾을 수 있다. 　

개개인의 DNA 또는 RNA에서 특정한 돌연변이 또는 대립유전자의 존재를 검출하기 위한 다양한 방법이 이용가능하다. 이 분야의 진전은 정확하고 쉽고 저렴한 대규모 SNP 유전자분석(genotyping)을 제공한다. 예를 들어, 동적 대립유전자-특이적 하이브리드화(DASH), 마이크로플레이트 어레이 대각선 겔 전기영동(MADGE), 파이로서열분석, 올리고뉴클레오타이드-특이적 결찰, TaqMan 시스템 뿐만 아니라 Affymetrix SNP 칩과 같은 다양한 DNA "칩" 기술을 포함하는 여러 기술들이 기술되어 있다. 이들 방법은 통상 PCR에 의해 표적 유전자 영역의 증폭을 이용한다. 또다른 방법들은 침습성 절단에 의한 작은 신호 분자의 생성, 이어서 질량 분광분석법 또는 고정된 패드록 프로브 및 롤링-서클 증폭에 기초되어 있다. 특이적인 돌연변이를 검출하기 위한 당해 분야에 공지된 몇 가지 방법이 하기에 요약되어 있다.

PCR 기반 검출 수단은 복수의 마커의 멀티플렉스 증폭을 동시에 포함할 수 있다. 예를 들어, 크기가 중첩되지 않고 동시에 분석될 수 있는 PCR 생성물을 생성하기 위한 PCR 프라이머를 선택하는 것은 당해 분야에 잘 알려져 있다. 대안적으로, 차별적으로 표지되고 그에 따라서 차별적으로 검출될 수 있는 프라이머에 의해 상이한 마커를 증폭시키는 것이 가능하다. 물론, 하이브리드화 기반의 검출 수단은 샘플내 다중 PCR 생성물의 차별적인 검출을 허용한다. 당해 기술 분야에서 복수의 마커의 멀티플렉스 분석을 가능하게 하는 다른 기술이 알려져 있다　

게놈 DNA 또는 세포 RNA 내 단일 뉴클레오타이드 다형성 분석을 용이하게 하기 위해 여러 가지 방법이 개발되었다. 예를 들어, 단일 염기 다형성은 특화된 엑소뉴클레아제-저항성 뉴클레오타이드를 사용함으로써 검출될 수 있는데, 이는 예를 들어, 하기에 개시되어 있다: Mundy, C.R.(미국특허제4,656,127호). 상기 방법에 따라, 다형성 부위의 3' 바로 옆에 있는 대립유전자 서열에 상보적인 프라이머를 특정한 동물 또는 인간으로부터 수득된 표적 분자에 혼성화시킨다. 표적 분자 상의 다형성 부위가 존재하는 특정한 엑소뉴클레아제-저항성 뉴클레오타이드 유도체에 상보적인 뉴클레오타이드를 함유한다면, 그 유도체는 혼성화된 프라이머의 단부 상에 편입될 것이다. 상기 편입은 프라이머를 엑소뉴클레아제에 대하여 저항성이 되도록 하여, 검출을 가능하게 한다. 샘플의 엑소뉴클레아제-저항성 유도체의 신원이 알려져 있기 때문에, 프라이머가 엑소뉴클레아제에 대하여 저항성이 있다는 발견은 표적 분자의 다형성 부위에 존재하는 뉴클레오타이드(들)이 반응에 사용된 뉴클레오타이드 유도체의 뉴클레오타이드와 상보적이라는 것을 나타낸다. 이 방법은 많은 양의 이질적인 서열 데이터를 결정할 필요가 없다는 이점을 갖는다. 　

용액-기반 방법은 다형성 부위의 뉴클레오타이드의 신원을 결정하는데 사용될 수 있다. Cohen, D. et al.(프랑스 특허 제2,650,840호; PCT 출원 제WO91/02087호).하기의 미국의 Mundy 방법에서와 같이,특허제4,656,127호, 다형성 부위의 3' 바로 옆에 있는 대립유전자 서열에 상보적인 프라이머가 사용된다. 이 방법은 표지된 디데옥시뉴클레오타이드 유도체를 사용하여 그 부위의 뉴클레오타이드의 신원을 결정하는데, 다형성 부위의 뉴클레오타이드에 상보적인 경우 프라이머의 말단에 편입될 것이다. 유전적 Bit 분석 또는 GBA로 알려진 대안적인 방법은 하기에 의해 기술되어 있다: Goelet, P. et al.(PCT 출원 제92/15712호). Goelet, P. 등의 방법은 표지된 종결자와 서열 3'에 상보적인 프라이머의 혼합물을 다형성 부위에 사용한다. 따라서, 편입된 표지된 종결자는 평가되는 표적 분자의 다형성 부위에 존재하는 뉴클레오타이드에 의해 결정되고, 이에 대해 상보적이다. Cohen et al.의 방법과는 대조적으로, (프랑스 특허 제2,650,840호; PCT 출원 제WO91/02087) Goelet, P.et al.의 방법은 프라이머 또는 표적 분자가 고상으로 고정되는 불균질 상 검정일 수 있다.

DNA에서 다형성 부위를 검정하기 위한 몇개의 프라이머-유도된 뉴클레오타이드 편입 절차가 기술되어 있다(Komher, J.S. et al.,Nucl.Acids.Res.17: 7779-7784(1989); Sokolov, B.P.,Nucl.Acids Res.18: 3671 (1990); Syvanen, A.-C., et al.,유전체학 8: 684-692(1990); Kuppuswamy, M.N. et al.,Proc.Natl.Acad.Sci.(미국)88: 1143-1147 (1991); Prezant, T.R. et al., Hum. Mutat.1: 159-164 (1992); Ugozzoli, L. et al., GATA 9: 107-112 (1992); Nyren, P. et al., Anal. Biochem. 208: 171-175 (1993)).이들 방법은 다형성 부위의 염기를 구별하기 위해 표지된 데옥시뉴클레오타이드의 편입을 이용하는 점에서 GBA와 상이하다. 그와 같은 포맷에서, 신호는 편입된 데옥시뉴클레오타이드의 수에 비례하기 때문에, 동일한 뉴클레오타이드의 런(run)에서 발생하는 다형성은 런의 길이에 비례하는 신호를 초래할 수 있다(Syvanen, A.-C., et al.,Amer.J.Hum.Genet.52: 46-59(1993)).　

수많은 계획(initiatives)은 병렬적으로 DNA 또는 RNA의 수백만개의 개별 분자에서 직접적으로 서열 정보를 얻는다. 실시간 단일 분자 합성을 통한 서열분석 기술은 형광성 뉴클레오타이드가 서열분석되는 주형에 상보적인 DNA의 발생기 가닥에 편입될 때 형광성 뉴클레오타이드의 검출에 의존한다. 하나의 방법으로, 길이 30-50 염기의 올리고뉴클레오타이드가 유리 커버 슬립에 5' 단부에 공유적으로 고정된다. 이러한 고정된 가닥은 두 가지 기능을 수행한다. 첫째, 주형이 표면-결합된 올리고뉴클레오타이드에 상보적인 포획 꼬리(capture tail)로 구성된 경우, 표적 템플레이트 가닥에 대한 포획 부위로서 작용한다. 그들은 또한 서열 판독의 기초를 이루는 주형 지향된 프라이머 연장을 위한 프라이머 역할을 한다. 포획 프라이머는 염료를 제거하기 위해 염료-링커의 합성, 검출 및 화학적 절단의 다중 주기를 사용하여 서열 결정을 위한 고정된 위치 부위로서 기능한다. 각각의 주기는 폴리머라제/표지된 뉴클레오타이드 혼합물의 첨가, 세정, 이미지형성 및 염료의 절단으로 구성된다. 대안적인 방법에서, 폴리머라제는 형광 공여체 분자에 의해 변형되고, 유리 슬라이드 상에 고정된 반면, 각각의 뉴클레오타이드는 감마-포스페이트에 부착된 수용체 형광 모이어티로 색상-코딩된다. 이 시스템은 뉴클레오타이드가 드 노보(de novo) 사슬에 편입됨에 따라 형광-표지된(fluorescently-tagged) 폴리머라제와 형광-변형된 뉴클레오타이드 사이의 상호작용을 검출한다. 다른 합성을 통한 서열분석 기술도 존재한다. 　

임의의 적합한 합성을 통한 서열분석 플랫폼을 사용하여 돌연변이를 동정할 수 있다. 상기에 기술된 바와 같이, 최근 네 가지 주요 합성을 통한 서열분석 플랫폼이 이용가능하다: Roche/454 Life Sciences의 게놈 시퀀서(Genome Sequencers), Illumina/Solexa의 1G 분석기, Applied BioSystems의 SOLiD 시스템, 및 Helicos Biosciences의 Heliscope 시스템. 합성을 통한 서열분석 플랫폼은 Pacific BioSciences 및 VisiGen Biotechnologies에 의해 기술되었다. 일부 구현예에서, 서열분석된 복수의 핵산 분자는 지지체(예를 들어, 고형 지지체)에 결합된다. 지지체 상에 핵산을 고정화시키기 위해, 주형의 3' 및/또는 5' 단부에 포획 서열/보편적인 프라이밍 부위가 첨가될 수 있다. 핵산은 지지체에 공유결합된 상보적 서열에 포획 서열을 하이브리드화시킴으로써 지지체에 결합될 수 있다. 포획 서열(또한, 보편적인 포획 서열로도 지칭됨)은 보편적인 프라이머로서 이중으로 작용할 수 있는 지지체에 부착된 서열에 상보적인 핵산 서열이다. 　

포획 서열에 대한 대안으로서, 커플링 쌍의 구성원(예컨대, 예를 들어, 항체/항원, 수용체/리간드 또는 아비딘-바이오틴 쌍, 예를 들어,미국 특허 출원 번호제2006/0252077호)은 각각의 단편에 연결되어, 그 커플링 쌍의 각각의 제2 구성원에 의해 코팅된 표면 상에 포획될 수 있다. 　

포획 후, 서열은 예를 들어, 단일 분자 검출/서열분석에 의해 분석될 수 있으며, 예를 들어 실시예 및 미국특허제7,283,337호(합성을 통한 주형-의존적 서열분석 포함)에 기술되어 있다. 합성을 통한 서열분석에서, 표면-결합된 분자는 폴리머라제의 존재하에 복수의 표지된 뉴클레오타이드 삼인산염에 노출된다. 주형의 서열은 성장하는 사슬의 3' 단부에 편입된 표지된 뉴클레오타이드의 순서에 의해 결정된다. 이 작업은 실시간으로 수행되거나 단계별 반복 방식으로 수행될 수 있다. 실시간 분석을 위해, 각 뉴클레오타이드에 대한 다양한 광학 라벨이 편입될 수 있으며, 편입된 뉴클레오타이드의 자극을 위해 여러개의 레이저가 사용될 수 있다.

서열분석은 또한 다른 대량 병렬 서열분석 또는 차세대 서열분석(NGS) 기술 및 플랫폼을 포함할 수 있다. 대량 병렬 서열분석 기술 및 플랫폼의 추가의 예로는 Illumina HiSeq 또는 MiSeq, Thermo PGM 또는 Proton, Pac Bio RS Ⅱ 또는 Sequel, Qiagen's 유전자 판독기 및 Oxford Nanopore MinION이 있다. 추가로 유사한 최신 대량 병렬 서열분석 기술뿐만 아니라 차세대 기술이 사용될 수 있다.

임의의 세포 유형 또는 조직을 이용하여 본 명세서에 기재된 방법에서 사용하기 위한 핵산 샘플을 수득할 수 있다. 예를 들어, DNA 또는 RNA 샘플은 공지된 기술(예를 들어, 정맥천자) 또는 타액에 의해 수득된 종양 또는 체액, 예를 들어 혈액으로부터 수득될 수 있다. 대안적으로, 핵산 테스트는 건조 샘플(예를 들어, 모발 또는 피부)에서 수행될 수 있다. 　 또한, 종양으로부터 서열분석을 위한 샘플이 수득될 수 있고, 정상 조직이 종양과 동일한 조직 유형인 경우 서열분석을 위해 다른 샘플이 정상 조직으로부터 수득될 수 있다. 종양으로부터 서열 분석을 위한 샘플이 수득될 수 있고, 정상 조직이 종양과 관련하여 구별되는 조직 유형인 경우 서열 분석을 위해 정상 조직으로부터 또 다른 샘플이 수득될 수 있다.

종양은 폐암, 흑색종, 유방암, 난소암, 전립선암, 신장암, 위암, 결장암, 고환암, 두경부암, 췌장암, 뇌암, B-세포 림프종, 급성 골수성 백혈병, 만성 골수성 백혈병, 만성 림프구성 백혈병 및 T-세포 림프구성 백혈병, 비-소세포 폐암 및 소세포 폐암 중 하나 이상을 포함할 수 있다.

대안적으로, 단백질 질량 분광분석법을 사용하여 종양 세포 상에서 MHC 단백질에 결합된 돌연변이된 펩타이드의 존재를 동정하거나 입증할 수 있다. 펩타이드는 종양 세포로부터, 또는 종양으로부터 면역침강된 HLA 분자로부터 산-용출될 수 있고, 그다음 질량 분광분석법을 사용하여 동정될 수 있다. 　

Ⅳ. 신생항원

신생항원에는 뉴클레오타이드 또는 폴리펩타이드가 포함될 수 있다. 예를 들어, 신생항원은 폴리펩타이드 서열을 인코딩하는 RNA 서열일 수 있다. 그러므로 백신에 유용한 신생항원은 뉴클레오타이드 서열 또는 폴리펩타이드 서열을 포함할 수 있다.

본원에 개시된 방법에 의해 동정된 종양 특이적 돌연변이, 공지된 종양 특이적 돌연변이를 포함하는 펩타이드 및 본원에 개시된 방법에 의해 동정된 돌연변이체 폴리펩타이드 또는 그의 단편을 포함하는 단리된 펩타이드가 본원에 개시된다. 신생항원 펩타이드는 암호화 서열의 문맥으로 기재될 수 있으며, 여기서 신생항원은 뉴클레오타이드 서열 (예를 들어, DNA 또는 RNA)로서, 관련된 폴리펩타이드 서열을 인코딩하는 서열을 포함한다.

신생항원 뉴클레오타이드 서열에 의해 인코딩되는 하나 이상의 폴리펩타이드는 하기 중 적어도 하나를 포함할 수 있다: 8-15, 8, 9, 10, 11, 12, 13, 14 또는 15개 아미노산의 길이의 MHC 부류 I 펩타이드에 대하여 IC₅₀ 값이 1000nM 미만인 MHC와의 결합 친화도, 프로테아솜 절단을 촉진시키는 펩타이드 내 또는 근처에 서열 모티프 존재, 및 TAP 수송을 촉진시키는 서열 모티프 또는 존재. 6-30, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 또는 30개의 아미노산 길이의 MHC 부류 II 폴리펩타이드에 대해, 세포외 또는 리소좀 프로테아제 (예를 들어, 카텝신) 또는 HLA-DM 촉매화된 HLA 결합에 의한 절단을 촉진하는 펩타이드 내부 또는 근처의 서열 모티프의 존재.

하나 이상의 신생항원이 종양의 표면 상에 제시될 수 있다.

하나 이상의 신생항원은 종양이 있는 대상체에서 면역원성이며, 예를 들어 대상체에서 T-세포 반응 또는 B 세포 반응을 유도할 수 있다.

대상체에서 자가면역 반응을 유도하는 하나 이상의 신생항원은 종양이 있는 대상체에 대한 백신 생성의 맥락에서의 고려에서 제외될 수 있다

적어도 하나의 신생항원성 펩타이드 분자의 크기는 비제한적으로 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30, 약 31, 약 32, 약 33, 약 34, 약 35, 약 36, 약 37, 약 38, 약 39, 약 40, 약 41, 약 42, 약 43, 약 44, 약 45, 약 46, 약 47, 약 48, 약 49, 약 50, 약 60, 약 70, 약 80, 약 90, 약 100, 약 110, 약 120 또는 그 이상의 아미노 분자 잔기 및 그로부터 유도가능한 임의의 범위이다. 특정 구현예에서 신생항원성 펩타이드 분자는 50개 이하의 아미노산이다. 　

신생항원성 펩타이드와 폴리펩타이드는 하기일 수 있다: MHC 부류 I의 경우 길이가 15개 이하의 잔기이고, 일반적으로 약 8 내지 약 11개 잔기, 특히 9 또는 10개 잔기로 구성되며; MHC 부류 Ⅱ의 경우 6-30개 잔기(경계값 포함).　

바람직하다면, 더 긴 펩타이드가 여러 가지 방법으로 설계될 수 있다. 본원의 경우, HLA 대립유전자상의 펩타이드의 제시 가능성이 예측되거나 공지될 때, 보다 긴 펩타이드는 하기 중 하나로 구성될 수 있다: (1) 각각의 상응하는 유전자 생성물의 N- 및 C-말단을 향하여 2 내지 5개 아미노산의 연장을 갖는 개별의 제시된 펩타이드; (2) 제시된 펩타이드의 일부 또는 전부와 각각에 대한 연장된 서열의 결합.또 다른 경우에, 서열분석이 종양에 존재하는 긴(10개 잔기 초과) 네오에피토프 서열(예를 들어, 신규한 펩타이드 서열로 이어지는 격자 이동, 초과번역 또는 인트론 포함으로 인함)을 나타내는 경우, 보다 긴 펩타이드는 하기로 구성된다: (3) 신규한 종양-특이적 아미노산의 전체 스트레치 - 따라서 가장 강한 HLA가 제시된 더 짧은 펩타이드의 선택에 기초한- 컴퓨터이용 또는 시험관내 시험의 필요성을 우회한다. 두 경우 모두, 더 긴 펩타이드의 사용은 환자 세포에 의한 내인성 프로세싱을 가능하게 하고, 보다 효과적인 항원 제시 및 T-세포 반응의 유도를 유도할 수 있다. 　

신생항원성 펩타이드 및 폴리펩타이드는 HLA 단백질 상에 제시될 수 있다. 일부 양태에서, 신생항원성 펩타이드 및 폴리펩타이드는 야생형 펩타이드보다 큰 친화도를 갖는 HLA 단백질 상에 제시된다. 일부 양태에서, 신생항원성 펩타이드 또는 폴리펩타이드는 적어도 5000 nM 미만, 적어도 1000 nM 미만, 적어도 500 nM 미만, 적어도 250 nM 미만, 적어도 200 nM 미만, 적어도 150 nM 미만, 적어도 100 nM 미만, 적어도 50 nM 미만 또는 그 이하의 IC₅₀을 가질 수 있다. 　

일부 양태에서, 신생항원성 펩타이드 및 폴리펩타이드는 자가면역 반응을 유도하지 않으며, 및/또는 대상체에게 투여될 때 면역학적 내성을 일으킨다. 　

또한 적어도 2종 또는 그 이상의 신생항원성 펩타이드를 포함하는 조성물이 제공된다. 일부 구현예에서, 조성물은 적어도 2종의 구별되는 펩타이드를 함유한다. 동일한 폴리펩타이드로부터 적어도 2종의 구별되는 펩타이드가 유래될 수 있다. 구별되는 폴리펩타이드는 펩타이드가 길이, 아미노산 서열 또는 둘 모두에 의해 다양함을 의미한다. 펩타이드는 종양 특이적 돌연변이를 포함하는 것으로 알려진 또는 발견된 임의의 폴리펩타이드로부터 유래된다. 신생항원성 펩타이드가 유래될 수 있는 적합한 폴리펩타이드는 예를 들어 COSMIC 데이터베이스에서 찾을 수 있다. COSMIC은 인간 암의 체세포 돌연변이에 대한 포괄적인 정보를 수집한다. 펩타이드는 종양 특이적 돌연변이를 포함한다. 일부 양태에서 종양 특이적인 돌연변이는 특정한 암 유형에 대한 유발 돌연변이이다.

원하는 활성 또는 특성을 갖는 신생항원성 펩타이드 및 폴리펩타이드는 원하는 MHC 분자를 결합시키고 적절한 T-세포를 활성화시키기 위해 비변형된 펩타이드의 실질적으로 모든 생물학적 활성을 증가시키면서, 또는 적어도 유지하면서, 특정 원하는 속성, 예를 들어 개선된 약리적 특징을 제공하도록 변형될 수 있다. 예를 들어, 신생항원성 펩타이드 및 폴리펩타이드는 보존적 또는 비-보존적인 치환과 같은 다양한 변화를 겪을 수 있으며, 이러한 변화는 개선된 MHC 결합, 안정성 또는 제시와 같은 용도의 특정한 이점을 제공할 수 있다. 보존적 치환은 아미노산 잔기를 생물학적으로 및/또는 화학적으로 유사한 또다른 아미노산 잔기, 예를 들어 다른 것에 대한 하나의 소수성 잔기, 또는 다른 것에 대한 하나의 극성 잔기로 대체하는 것을 의미한다. 치환은 Gly, Ala; Val, Ile, Leu, Met; Asp, Glu; Asn, Gln; Ser, Thr; Lys, Arg; 및 Phe, Tyr와 같은 조합을 포함한다. 단일 아미노산 치환의 효과는 D-아미노산을 사용하여 프로빙될 수도 있다. 이러한 변형은 공지된 펩타이드 합성 절차를 사용하여, 예를 들어, 하기에 기술된 바와 같이 이루어질 수 있다: Merrifield, Science 232: 341-347(1986), Barany & Merrifield, 펩타이드, Gross & Meienhofer, eds.(N.Y.,Academic Press), pp.1-284(1979); and Stewart & Young, 고상 펩타이드 합성, (Rockford, Ill.,Pierce), 2d Ed.(1984).　

다양한 아미노산 모방체 또는 비천연 아미노산을 갖는 펩타이드 및 폴리펩타이드의 변형은 생체 내에서 펩타이드 및 폴리펩타이드의 안정성을 증가시키는데 특히 유용할 수 있다. 안정성은 수많은 방법으로 분석될 수 있다. 예를 들어, 펩티다아제 및 인간 혈장 및 혈청과 같은 다양한 생물학적 배지가 안정성 테스트에 사용되어왔다. 예를 들어, 하기를 참조한다: Verhoef 등, Eur. J. Drug Metab Pharmacokin. 11: 291-302 (1986). 펩타이드의 반감기는 25% 인간 혈청(v/v) 분석법을 사용하여 편리하게 결정될 수 있다. 프로토콜은 일반적으로 다음과 같다. 풀링된 인간 혈청(유형 AB, 비-열 불활성화된)은 사용 전에 원심 분리에 의해 탈지된다. RPMI 조직 배양 배지에 의해 혈청이 25%로 희석되고, 펩타이드 안정성을 시험하는데 사용하였다. 예정된 시간 간격으로 소량의 반응 용액이 제거되고, 6% 수성 트리클로로아세트산 또는 에탄올에 첨가된다. 흐린 반응 샘플이 15분 동안 냉각(4℃)된 다음, 침전된 혈청 단백질이 펠렛으로 스핀된다. 이어서, 펩타이드의 존재는 안정성-특이적인 크로마토그래피 조건을 사용하는 역상 HPLC에 의해 결정된다. 　

펩타이드 및 폴리펩타이드는 개선된 혈청 반감기 이외의 원하는 속성을 제공하도록 변형될 수 있다. 예를 들어, CTL 활성을 유도하는 펩타이드의 능력은 T 헬퍼 세포 반응을 유도할 수 있는 적어도 하나의 에피토프를 함유하는 서열로의 결합에 의해 강화될 수 있다. 면역원성 펩타이드/T 헬퍼 접합체는 스페이서 분자에 의해 연결될 수 있다. 스페이서는 통상 생리적 조건하에 실질적으로 충전되지 않은 비교적 작고 중성인 분자, 예컨대 아미노산 또는 아미노산 모방체로 구성된다. 스페이서는 통상 예를 들어, 하기로부터 선택된다: Ala, Gly, 또는 무극성 아미노산 또는 중성 극성 아미노산의 기타 중성 스페이서.임의로 존재하는 스페이서는 동일한 잔기로 구성될 필요는 없으며, 따라서 헤테로- 또는 호모-올리고머일 수 있는 것으로 이해될 것이다. 존재하는 경우, 스페이서는 일반적으로 적어도 1 또는 2개의 잔기, 보다 일반적으로 3 내지 6개의 잔기 일 것이다. 대안적으로, 펩타이드는 스페이서없이 T 헬퍼 펩타이드에 연결될 수 있다. 　

신생항원성 펩타이드는 직접적으로 또는 펩타이드의 아미노 또는 카르복시 말단에서 스페이서를 통해 T 헬퍼 펩타이드에 연결될 수 있다. 신생항원성 펩타이드 또는 T 헬퍼 펩타이드의 아미노 말단은 아실화될 수 있다. 예시적인 T 헬퍼 펩타이드는 테타누스독소증 변성독소 830-843, 인플루엔자 307-319, 말라리아 시르쿰스포로조이테(malaria circumsporozoite) 382-398 및 378-389를 포함한다. 　

단백질 또는 펩타이드는 표준 분자 생물학적 기술을 통한 단백질, 폴리펩타이드 또는 펩타이드의 발현, 천연 원천으로부터의 단백질 또는 펩타이드의 단리, 또는 단백질 또는 펩타이드의 화학적 합성을 포함하는 당해 분야의 숙련가에게 공지된 임의의 기술로 제조될 수 있다. 다양한 유전자에 상응하는 뉴클레오타이드 및 단백질, 폴리펩타이드 및 펩타이드 서열은 이전에 개시되어 있으며, 당해 분야의 숙련가에게 공지된 컴퓨터화된 데이터베이스에서 발견될 수 있다. 그러한 데이터베이스 중 하나는 국립 보건원 웹사이트에 있는 미국 국립생물공학정보센터의 Genbank 및 GenPept 데이터베이스이다. 공지된 유전자에 대한 암호화 영역은 본원에 개시된 기술을 사용하여, 또는 당해 분야의 숙련가에게 공지된 바와 같이 증폭 및/또는 발현될 수 있다. 대안적으로, 단백질, 폴리펩타이드 및 펩타이드의 다양한 상업적 제제가 당해 분야의 숙련가에게 공지되어 있다. 　

추가의 양태에서 신생항원은 신생항원성 펩타이드 또는 그의 일부를 인코딩하는 핵산(예를 들어, 폴리뉴클레오타이드)을 포함한다. 폴리뉴클레오타이드는 예를 들어, 하기일 수 있으며: DNA, cDNA, PNA, CNA, RNA (예를 들어, mRNA), 단일-가닥 및/또는 이중-가닥, 또는 천연 또는 안정화된 형태의 폴리뉴클레오타이드, 예컨대 예를 들어 포스포로티에이트 백본을 갖는 폴리뉴클레오타이드 또는 이들의 조합, 그리고 인트론을 포함하거나, 포함하지 않을 수도 있다. 또 추가의 양태는 폴리펩타이드 또는 그의 일부를 발현할 수 있는 발현 벡터를 제공한다. 상이한 세포 유형에 대한 발현 벡터는 당해 분야에 잘 알려져 있으며, 과도한 실험과정없이 선택될 수 있다. 일반적으로, DNA는 플라스미드와 같은 발현 벡터에 적절한 배향으로 및 발현을 위한 정확한 해독틀로 삽입된다. 필요하면, DNA는 원하는 숙주에 의해 인식되는 적절한 전사 및 번역 조절 제어 뉴클레오타이드 서열에 연결될 수 있지만, 이러한 제어는 일반적으로 발현 벡터에서 이용 가능하다. 그런 다음 벡터는 표준 기술을 통해 숙주에 도입된다. 안내는 예를 들어 하기에서 찾아볼 수 있다: Sambrook et al.(1989) 분자 클로닝, 연구실 매뉴얼, Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y.

Ⅳ. 백신 조성물

또한, 특정한 면역 반응, 예를 들어, 종양-특이적 면역 반응을 일으킬 수 있는 면역원성 조성물, 예를 들어, 백신 조성물이 본원에 개시된다. 백신 조성물은 통상, 예를 들어 본원에 기재된 방법을 사용하여 선택된 복수의 신생항원을 포함한다. 백신 조성물은 또한 백신이라고 지칭될 수 있다.

백신은 1 내지 30개의 펩타이드, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 또는 30개의 상이한 펩타이드, 6, 7, 8, 9, 10 11, 12, 13, 또는 14개의 상이한 펩타이드, 또는 12, 13 또는 14개의 상이한 펩타이드를 함유할 수 있다　펩타이드는 번역후 변형을 포함할 수 있다. 백신은 1 내지 100개 또는 그 이상의 뉴클레오타이드 서열, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100개, 또는 그 이상의 상이한 뉴클레오타이드 서열, 6, 7, 8, 9, 10 11, 12, 13, 또는 14개의 상이한 뉴클레오타이드 서열, 또는 12, 13, 또는 14개의 상이한 뉴클레오타이드 서열을 함유할 수 있다. 백신은 1 내지 30개의 신생항원 서열, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100개 또는 그 이상의 상이한 신생항원 서열, 6, 7, 8, 9, 10 11, 12, 13, 또는 14개의 상이한 신생항원 서열, 또는 12, 13, 또는 14개의 상이한 신생항원 서열을 함유할 수 있다.

일 구현예에서, 펩타이드 및/또는 폴리펩타이드가 상이한 MHC 분자, 예컨대 상이한 MHC 부류 I 분자 및/또는 상이한 MHC 부류 II 분자와 결합할 수 있도록, 상이한 펩타이드 및/또는 폴리펩타이드 또는 이들을 인코딩하는 뉴클레오타이드 서열이 선택된다. 일부 양태에서, 하나의 백신 조성물은 가장 빈번하게 발생하는 MHC 부류 I 분자 및/또는 MHC 부류 II 분자와 결합할 수 있는 펩타이드 및/또는 폴리펩타이드에 대한 암호화 서열을 포함한다. 따라서, 백신 조성물은 적어도 2개의 바람직한, 적어도 3개의 바람직한, 또는 적어도 4개의 바람직한 MHC 부류 I 분자 및/또는 MHC 부류 II 분자와 결합할 수 있는 상이한 단편을 포함할 수 있다. 　

백신 조성물은 특이적인 세포독성 T-세포 반응 및/또는 특이적인 헬퍼 T-세포 반응을 일으킬 수 있다. 　

백신 조성물은 아쥬반트 및/또는 담체를 추가로 포함할 수 있다. 유용한 아쥬반트 및 담체의 예는 하기에 주어져 있다. 조성물은 담체, 예컨대 예를 들어, 단백질 또는 항원-제시 세포, 예컨대 예를 들어 T-세포에 펩타이드를 제시할 수 있는 수지상 세포(DC)와 결합될 수 있다. 　

아쥬반트는 백신 조성물과 혼합하여 신생항원에 대한 면역 반응을 증가시키거나 그렇지 않으면 변경시키는 임의의 물질이다. 담체는 스캐폴드 구조, 예를 들어 신생항원이 결합될 수 있는 폴리펩타이드 또는 다당류일 수 있다. 선택적으로, 아쥬반트는 공유결합 또는 비공유결합된다. 　

항원에 대한 면역 반응을 증가시키는 아쥬반트의 능력은 통상 면역-매개된 반응의 상당한 또는 실질적인 증가, 또는 질환 증상의 감소에 의해 나타난다. 예를 들어 체액성 면역의 증가는 통상, 항원에 대해 상승된 항체의 역가가 유의미하게 증가함으로써 나타나며, T-세포 활성의 증가는 통상, 증가된 세포증식 또는 세포성 세포독성 또는 사이토카인 분비에서 나타난다. 아쥬반트는 또한 예를 들어 주로 체액성 또는 Th 반응을 주로 세포성 또는 Th 반응으로 변화시킴으로써 면역 반응을 변화시킬 수 있다. 　

적합한 아쥬반트는 1018 ISS, 명반, 알루미늄 염, Amplivax, AS15, BCG, CP-870,893, CpG7909, CyaA, dSLIM, GM-CSF, IC30, IC31, 이미퀴모드(Imiquimod), ImuFact IMP321, IS 패치, ISS, ISCOMATRIX, JuvImmune, LipoVac, MF59, 모노포스포릴 지질 A, 몬타나이드(Montanide) IMS 1312, 몬타나이드 ISA 206, 몬타나이드 ISA 50V, 몬타나이드 ISA-51, OK-432, OM-174, OM-197-MP-EC, ONTAK, PepTel 벡터 시스템, PLG 극미립자, 레시퀴모드(resiquimod), SRL172, 바이로좀(Virosomes) 및 기타 바이러스-유사 입자, YF-17D, VEGF 트랩, R848, 베타-글루칸, Pam3Cys, Aquila's QS21 stimulon(Aquila Biotech, Worcester, Mass.,USA)(사포닌, 마이코박테리아 추출물 및 합성 박테리아 세포벽 모방체, 다른 전매 아쥬반트, 예컨대 Ribi's Detox로부터 유래됨).Quil 또는 Superfos.불완전 프로인트 또는 GM-CSF와 같은 아쥬반트가 유용하다. 여러 면역학적 아쥬반트(예를 들어,MF59)(수지상 세포에 특이적임) 및 이들의 제조는 이전에 기재되어 있다(Dupuis M, et al.,세포 면역학1998; 186(1): 18-27; Allison A C; Dev Biol Stand.1998; 92: 3-11).또한 사이토카인이 사용될 수 있다. 몇 개의 사이토카인(예를 들어, TNF-알파)은 직접 연결되어, 림프구 조직으로의 수지상 세포 이동에 영향을 미치며, 수지상 세포의 T-림프구에 대한 효율적인 항원-제시 세포로의 성숙을 촉진시키며(예를 들어, GM-CSF, IL-1 및 IL-4)(미국 특허 제5,849,589호, 특히 그 전체가 참고문헌으로 본원에 통합됨) 및 면역 아쥬반트로서 작용한다(예를 들어, IL-12)(Gabrilovich D I, et al.,J Immunother Emphasis Tumor Immunol.1996(6): 414-418).　

CpG 면역자극성 올리고뉴클레오타이드는 또한 백신 환경에서 아쥬반트의 효과를 향상시키는 것으로 보고되었다. RNA 결합 TLR 7, TLR 8 및/또는 TLR 9와 같은 다른 TLR 결합 분자가 또한 사용될 수 있다.

유용한 아쥬반트의 다른 예는 비제한적으로 하기를 포함한다: 화학적으로 변형된 CpGs(예를 들어,CpR, Idera), 폴리(I:C)(예를 들어, 폴리i: CI2U), 비-CpG 박테리아 DNA 또는 RNA 뿐만 아니라 면역활성소분자 및 항체, 예컨대 사이클로포스파미드(cyclophosphamide), 수니티닙(sunitinib), 베바시주맙(bevacizumab), 셀레브렉스(Celebrex), NCX-4016, 실데나필(sildenafil), 타달라필(tadalafil), 바르데나필(vavardenafil), 소라피닙(sorafinib), XL-999, CP-547632, 파조파닙(pazopanib), ZD2171, AZD2171, 이필리무맙(ipilimumab), 트레멜리무맙(tremelimumab) 및 SC58175(이들은 치료제 및/또는 아쥬반트로서 작용할 수 있음)아쥬반트 및 첨가제의 양 및 농도는 과도한 실험과정없이 숙련가에 의해 용이하게 결정될 수 있다. 추가의 아쥬반트는 콜로니-자극 인자, 예컨대 과립구 대식세포 집락 자극 인자[GM-CSF, 사르그라모스팀(sargramostim)]를 포함한다. 　

백신 조성물은 하나 이상의 상이한 아쥬반트를 포함할 수 있다. 또한, 치료 조성물은 상기의 임의의 것 또는 이들의 조합을 포함하는 임의의 아쥬반트 보조물질을 포함할 수 있다. 백신 및 아쥬반트는 함께 또는 임의의 적절한 순서로 개별적으로 투여될 수 있는 것으로 고려된다. 　

담체(또는 부형제)는 아쥬반트와 독립적으로 존재할 수 있다. 담체의 기능은 예를 들어, 활성 또는 면역원성을 증가시키고, 안정성을 부여하거나, 생물학적 활성을 증가시키거나, 또는 혈청 반감기를 증가시키기 위해 돌연변이체의 분자량을 증가시키는 것일 수 있다. 또한, 담체는 펩타이드를 T-세포에 제시하는 것을 도울 수 있다. 담체는 당해 기술의 숙련가에게 공지된 임의의 적합한 담체, 예를 들어 단백질 또는 항원 제시 세포일 수 있다. 담체 단백질은 키홀 림펫 헤모시아닌, 혈청 단백질, 예컨대 트랜스페린, 소 혈청 알부민, 인간 혈청 알부민, 티로글로불린 또는 난백알부민, 면역글로불린, 또는 호르몬, 예컨대 인슐린 또는 팔미트산일 수 있다. 인간의 면역화를 위해, 담체는 일반적으로 인간에게 허용가능하고 안전한, 생리적으로 허용가능한 담체이다. 그러나, 테타누스독소증 변성독소 및/또는 디프테리아 독소가 적합한 담체이다. 대안적으로, 담체는 덱스트란, 예를 들어 세파로오스일 수 있다. 　

세포 독성 T-세포(CTL)는 온전한 외래 항원 자체보다는 MHC 분자에 결합된 펩타이드의 형태로 항원을 인식한다. MHC 분자 자체는 항원 제시 세포의 세포 표면에 위치한다. 따라서, 펩타이드 항원, MHC 분자 및 APC의 삼량체 복합체가 존재한다면 CTL의 활성화가 가능하다. 그에 상응하여, CTL의 활성화에 펩타이드가 사용될뿐만 아니라, 추가로 각각의 MHC 분자를 갖는 APC가 첨가되는 경우 면역 반응을 향상시킬 수 있다. 따라서, 일부 구현예에서, 백신 조성물은 적어도 하나의 항원 제시 세포를 추가로 함유한다. 　

신생항원은 또한 바이러스 벡터-기반 백신 플랫폼, 예컨대 백시니아(vaccinia), 계두(fowlpox), 자기-복제 알파바이러스, 마라바바이러스, 아데노바이러스 [예를 들어, Tatsis 등, 아데노바이러스, Molecular Therapy (2004) 10, 616-629를 참고하라], 또는 특정한 세포 유형 또는 수용체를 표적으로 하도록 설계된 임의의 세대의 제2, 제3 또는 하이브리드 제2/제3 세대 렌티바이러스 및 재조합 렌티바이러스를 포함하지만 이에 한정되지 않는 렌티바이러스(예를 들어, Hu 등, 암 및 전염병에 대한 렌티바이러스 벡터에 의해 전달된 면역화, Immunol Rev. (2011) 239(1): 45-61, Sakuma et al.,렌티바이러스 벡터: 기본에서 번역으로, Biochem J.(2012) 443(3): 603-18, Cooper et al., 스플라이싱-매개된 인트론 손실의 구조는 인간 유비퀴틴 C 프로모터를 함유하는 렌티바이러스 벡터에서의 발현을 최대화한다, Nucl.Acids Res.(2015) 43(1): 682-690, Zufferey et al., 안전하고 효율적인 생체내 유전자 전달을 위한 자가-불활성화 렌티바이러스 벡터, J.Virol.(1998) 72(12): 9873-9880)에 포함될 수 있다. 상기 언급된 바이러스 벡터-기반 백신 플랫폼의 패키징 용량에 의존적으로, 이 접근법은 하나 이상의 신생항원 펩타이드를 인코딩하는 하나 이상의 뉴클레오타이드 서열을 전달할 수 있다. 상기 서열은 돌연변이가 없는 서열이 측접할 수 있고, 링커에 의해 분리될 수 있거나, 세포하 구획을 표적으로 하는 하나 이상의 서열이 선행될 수 있다 [예를 들어, Gros 등, 흑색종 환자의 말초 혈액에서 신생항원-특이적 림프구의 유망한 동정, Nat Med.(2016) 22(4): 433-8, Stronen et al., 공여체-유래된 T-세포 수용체 레퍼토리를 가진 암 신생항원의 표적화, Science.(2016) 352(6291): 1337-41, Lu et al, 내구성 종양 퇴화와 관련된 T-세포에 의해 인식되는 돌연변이된 암 항원의 효율적인 동정, Clin Cancer Res.(2014) 20(13):3401-10 참조]. 숙주 내로 도입되면, 감염된 세포는 신생항원을 발현하여 숙주 면역(예를 들어, CTL) 반응을 펩타이드(들)에 대하여 유도하였다. 면역화 프로토콜에 유용한 백시니아 벡터 및 방법은 예를 들어, 미국 특허 제4,722,848호에 기재되어 있다. 또 다른 벡터는 BCG(Bacille Calmette Guerin)이다. BCG 벡터는 Stover et al. [Nature 351:456-460(1991)]에 기재되어 있다. 신생항원의 치료적 투여 또는 면역화에 유용한 다양한 다른 백신 벡터, 예를 들어, 살모넬라 타이피 벡터 등은 본원의 설명으로부터 당해 분야의 숙련가에게 분명할 것이다.

IV.A. 백신 설계 및 제조에 대한 추가의 고려사항들

IV.A.1. 모든 종양 서브클론을 커버하는 펩타이드 세트 결정

모든 또는 대부분의 종양 서브클론이 나타내는 몸통(truncal) 펩타이드는 백신에 포함시키기 위해 우선 순위가 결정될 것이다.⁵³ 선택적으로, 높은 확률로 제시되고 면역원성이 예상되는 몸통 펩타이드가 없는 경우, 또는 높은 확률로 제시되고 면역원성이 예상되는 몸통 펩타이드의 수는 추가로 비-몸통 펩타이드가 백신에 포함될 수 있을 정도로 충분히 작은 경우, 그러면 백신에 커버되는 종양 서브클론의 수를 극대화하도록 종양 서브클론의 수와 동일성을 평가하고, 펩타이드를 선택함으로써 펩타이드가 우선순위 부여될 수 있다.⁵⁴

IV.A.2. 신생항원 우선순위 부여

상기 신생항원 필터를 모두 적용한 후에는 백신 기술이 지원할 수 있는 것보다 더 많은 후보 신생항원이 백신접종에 사용될 수 있다. 또한, 신생항원 분석의 다양한 측면에 대한 불확실성이 남아있을 수 있으며, 후보 백신 신생항원의 상이한 특성들 간에 상충 관계가 존재할 수 있다. 따라서, 선택 과정의 각 단계에서 소정의 필터 대신에, 적어도 하기 축을 갖는 공간에 후보 신생항원을 위치시키고, 통합 접근법을 사용하여 선택을 최적화하는 통합된 다중-차원 모델이 고려될 수 있다.

1. 자가면역 또는 내성의 위험(생식 계열의 위험) (자가면역의 위험성이 더 낮은 것이 통상 바람직함)

2. 서열분석 인공물의 확률(인공물 발생 확률이 더 낮은 것이 통상 바람직함)

3. 면역원성 확률(면역원성의 확률이 더 높은 것이 통상 바람직함)

4. 제시 확률(제시의 확률이 더 높은 것이통상 바람직함)

5. 유전자 발현(더 높은 발현률이 통상 바람직함)

6. HLA 유전자의 적용범위(신생항원 세트의 제시에 관여하는 HLA 분자의 수가 많을수록 종양이 HLA 분자의 하향 조절 또는 돌연변이를 통한 면역 공격을 피할 확률을 낮출 수 있음).

7. HLA 부류의 적용 범위 (HLA-I 및 HLA-II를 모두 포함하면 치료 반응의 가능성이 증가하고 종양 탈출의 가능성이 감소할 수 있음)

Ⅴ. 치료 및 제조 방법

또한, 본원에 개시된 방법을 사용하여 동정된 하나 이상의 신생항원, 예컨대 복수의 신생항원을 대상체에게 투여함으로써, 대상체에서 종양 특이적 면역 반응을 유도하고, 종양에 대해 백신접종하고, 대상체의 암의 증상을 치료 및/또는 경감시키는 방법이 제공된다. 　

일부 양태에서, 대상체는 암으로 진단되었거나 암이 발병할 위험이 있다. 대상체는 인간, 개, 고양이, 말 또는 종양 특이적 면역 반응이 요구되는 임의의 동물일 수 있다. 종양은 임의의 고형 종양, 예컨대 유방, 난소, 전립선, 폐, 신장, 위, 결장, 고환, 두경부, 췌장, 뇌, 흑색종 및 기타 조직기관 종양 및 혈액 종양, 예컨대 림프종 및, 급성 골수성 백혈병, 만성 골수성 백혈병, 만성 림프구성 백혈병, T-세포 림프구성 백혈병 및 B 세포 림프종을 포함하는, 백혈병일 수 있다.

신생항원은 CTL 반응을 유도하기에 충분한 양으로 투여될 수 있다.

신생항원은 단독으로 또는 다른 치료제와 조합하여 투여될 수 있다. 치료제는 예를 들어 화학요법제, 방사선 또는 면역요법이다. 특정한 암에 대한 임의의 적합한 치료적 처치가 투여될 수 있다.

또한, 대상체는 체크포인트 억제제와 같은 항-면역억제성/면역자극성 제제를 추가로 투여받을 수 있다. 예를 들어, 대상체는 항-CTLA 항체 또는 항-PD-1 또는 항-PD-L1을 추가로 투여받을 수 있다. 항체에 의한 CTLA-4 또는 PD-L1의 봉쇄는 환자의 암성 세포에 대한 면역 반응을 향상시킬 수 있다. 특히 CTLA-4 봉쇄는 백신접종 프로토콜을 따르는 경우 효과적인 것으로 나타났다. 　

백신 조성물에 포함되는 각각의 신생항원의 최적량 및 최적의 투약 요법을 결정할 수 있다. 예를 들어, 신생항원 또는 그것의 변이체는 정맥내(i.v.) 주사, 피하(s.c.) 주사, 진피내(i.d.) 주사, 복강내(i.p.) 주사, 근육내(i.m.) 주사를 위해 제조될 수 있다. 주사 방법은 피하, 진피내, 복강내, 근육내 및 정맥내 주사를 포함한다. DNA 또는 RNA 주사의 방법은 진피내, 근육내, 피하, 복강내 및 정맥내 주사를 포함한다. 백신 조성물의 다른 투여 방법은 당해 분야의 숙련가에게 공지되어 있다. 　

본 조성물에 존재하는 신생항원의 선택, 수 및/또는 양이 조직, 암 및/또는 환자-특이적이 되도록 백신이 컴파일링될 수 있다. 예를 들어, 펩타이드의 정확한 선택은 주어진 조직에서 모 단백질의 발현 패턴에 의해 유도될 수 있다. 선택은 암의 특이적 유형, 질환의 상태, 초기 치료 요법, 환자의 면역 상태, 및 물론 환자의 HLA-일배체형에 의존될 수 있다. 더욱이, 백신은 특정한 환자의 개인적 필요에 따라, 개별화된 성분을 함유할 수 있다. 예로는 특정한 환자에서 신생항원 항원의 발현에 따른 신생항원의 선택 또는 1차 치료법 또는 1차 치료 계획에 따른 2차 치료에 대한 조정을 변화시키는 것이 포함된다. 　

조성물을 암 백신으로 사용하기 위해, 정상 조직에서 다량으로 발현되는 유사한 정상적인 자가-펩타이드를 갖는 신생항원은 본원에 기재된 조성물에서 회피되거나 또는 소량으로 존재할 수 있다. 반면에, 환자의 종양이 다량의 특정한 신생항원을 발현한다는 것이 알려지면, 이 암 치료를 위한 약제학적 조성물은 다량으로 존재할 수 있으며, 및/또는 상기 특별히 신생항원을 위해 특이적인 하나의 신생항원 또는 상기 신생항원의 경로가 포함될 수 있다. 　

신생항원을 포함하는 조성물은 이미 암을 앓고 있는 개체에게 투여될 수 있다. 치료적 적용에서, 조성물은 종양 항원에 대한 효과적인 CTL 반응을 유도하고, 증상 및/또는 합병증을 치료하거나 적어도 부분적으로 억제하기에 충분한 양으로 환자에게 투여된다. 이것을 달성하기에 충분한 양은 "치료 유효량"으로 정의된다. 이러한 용도에 효과적인 양은 예를 들어 조성물, 투여 방식, 치료되는 질환의 단계 및 중증도, 환자의 체중 및 일반적인 건강 상태 및 처방 의사의 판단에 좌우될 것이다. 일반적으로 조성물은 생명을 위협하거나 잠재적으로 생명을 위협하는 상황에서, 특히 암이 전이된 경우, 사용될 수 있음을 명심해야 한다. 그와 같은 경우에, 외인성 물질의 최소화 및 신생항원의 상대적 무독성 특성의 관점에서, 치료 의사는 이들 조성물의 실질적인 과량을 투여하는 것이 가능하고 바람직하다고 느낄 수 있다. 　

치료 용도를 위해, 투여는 종양의 검출 또는 외과적 제거에서 시작될 수 있다. 그 다음에 적어도 증상이 실질적으로 약화될 때까지 그리고 그 이후의 기간 동안 투여량을 증가시킨다. 　

치료적 처치를 위한 약제학적 조성물(예를 들어, 백신 조성물)은 비경구, 국소, 비강, 경구 또는 국소 투여를 위한 것이다. 약제학적 조성물은 비경구로, 예를 들어, 정맥내로, 피하로, 진피내로, 또는 근육내로 투여될 수 있다. 상기 조성물은 종양에 대한 국소 면역 반응을 유도하기 위해 외과적 절제 부위에 투여될 수 있다. 본원에 신생항원의 용액을 포함하는 비경구 투여용 조성물이 개시되어 있으며, 백신 조성물은 허용가능한 담체, 예를 들어 수성 담체에 용해시키거나 현탁된다. 다양한 수성 담체, 예를 들어 물, 완충된 물, 0.9% 염수, 0.3% 글리신, 히알루론산 등이 사용될 수 있다. 이들 조성물은 통상의 잘 알려진 멸균 기술에 의해 멸균될 수 있거나, 멸균 여과될 수 있다. 수득된 수용액은 그대로 사용하기 위해 포장되거나, 동결건조되며, 동결건조된 제제는 투여 전에 무균 용액과 조합된다. 상기 조성물은 생리적 조건을 근사화하는데 필요한 약제학적으로 허용가능한 보조 물질, 예컨대 pH 조절 및 완충제, 긴장성 조절제, 습윤제 등, 예를 들어 아세트산나트륨, 젖산나트륨, 염화나트륨, 염화칼륨, 염화칼슘, 소르비탄 모노라우레이트, 트리에탄올아민 올레이트 등을 함유할 수 있다. 　

신생항원은 또한 리포솜을 통해 투여될 수 있으며, 이는 림프양 조직과 같은 특정한 세포 조직을 표적으로 한다. 리포좀은 반감기를 증가시키는 데에도 유용하다. 리포좀은 유제, 발포체, 미셀, 불용성 단일층, 액정, 인지질 분산액, 라멜라층 등을 포함한다. 이들 제제에서, 전달되는 신생항원은 리포좀의 일부로서, 단독으로 또는, 예를 들어, CD45 항원에 결합하는 단일클론성 항체와 같은 림프양 세포 중 만연한 수용체, 또는 다른 치료용 또는 면역원성 조성물과 접합하여 편입된다. 따라서, 원하는 신생항원으로 충전된 리포솜은 림프양 세포의 부위로 유도될 수 있으며, 여기서 리포솜은 선택된 치료적/면역원성 조성물을 전달한다. 리포좀은 일반적으로 중성 및 음전하인 인지질 및 스테롤, 예컨대 콜레스테롤을 포함하는 표준 소포-형성 지질로부터 형성될 수 있다. 지질의 선택은 일반적으로 예를 들어, 리포좀 크기, 산 불안정성 및 혈류내 리포솜의 안정성을 고려하여 유도된다. 리포솜을 제조하기 위해 여러 방법들이 사용될 수 있으며, 예를 들어 Szoka et al., Ann.Rev. Biophys. Bioeng.9; 467(1980), 미국 특허 제4,235,871호, 제4,501,728호, 제4,501,728호, 제4,837,028호, 및 제5,019,369호에 기재되어 있다.　

면역 세포를 표적화하기 위해, 리포솜에 편입될 리간드는 예를 들어 원하는 면역계 세포의 세포 표면 결정 인자에 특이적인 항체 또는 그의 단편을 포함할 수 있다. 리포솜 현탁액은 특히 투여 방식, 전달되는 펩타이드 및 치료되는 질환의 단계에 따라 달라지는 투여량으로 정맥내, 국부적으로, 국소적으로 투여될 수 있다.

치료 또는 면역화 목적을 위해, 펩타이드를 인코딩하는 핵산 및 임의로는 본원에 기재된 하나 이상의 펩타이드가 환자에게 투여될 수 있다. 핵산을 환자에게 전달하기 위해 복수의 방법이 편리하게 사용된다. 예를 들어, 핵산은 "네이키드(naked) DNA"로 직접 전달될 수 있다. 이 접근법은 예를 들어, Wolff et al., Science 247: 1465-1468(1990), 및 미국 특허 제5,580,859호 및 제5,589,466호에 기술되어 있다. 핵산은 또한 예를 들어, 미국 특허 제5,204,253호에 기술된 바와 같이, 탄도전달(ballistic delivery)을 사용하여 투여될 수 있다. DNA만으로 구성된 입자가 투여될 수 있다. 대안적으로, DNA는 금 입자와 같은 입자에 부착될 수 있다. 　핵산 서열을 전달하기 위한 접근법은 바이러스 벡터, mRNA 벡터, 및 전기천공이 있거나 없는 DNA 벡터를 포함할 수 있다.

핵산은 또한 양이온성 지질과 같은 양이온성 화합물과 복합체화되어 전달될 수 있다. 지질-매개된 유전자 전달 방법은 예를 들어, 하기에 기재되어 있다: 9618372WOAWO 96/18372; 9324640WOAWO 93/24640; Mannino & Gould-Fogerite, BioTechniques 6(7): 682-691(1988); 미국 특허 제5,279,833호 Rose 미국 특허 제5,279,833호; 9106309WOAWO 91/06309; 및 Felgner 등, Proc. Natl. Acad. Sci. USA 84: 7413-7414(1987).　

신생항원은 또한 바이러스 벡터-기반 백신 플랫폼, 예컨대 백시니아, 계두, 자기-복제 알파바이러스, 마라바바이러스, 아데노바이러스 [(예를 들어, Tatsis 등, 아데노바이러스, Molecular Therapy (2004) 10, 616―629)을 참고하라], 또는 특정한 세포 유형 또는 수용체를 표적으로 하도록 설계된 임의의 세대의 제2, 제3 또는 하이브리드 제2/제3 세대 렌티바이러스 및 재조합 렌티바이러스를 포함하지만 이에 한정되지 않는 렌티바이러스 [예를 들어, Hu 등, 암 및 전염병에 대한 렌티바이러스 벡터에 의해 전달된 면역화, Immunol Rev.(2011) 239(1): 45-61, Sakuma et al., 렌티바이러스 벡터: 기본에서 번역으로, Biochem J.(2012) 443(3): 603-18, Cooper et al., 스플라이싱-매개된 인트론 손실의 구조는 인간 유비퀴틴 C 프로모터를 함유하는 렌티바이러스 벡터에서의 발현을 최대화한다, Nucl.Acids Res.(2015) 43(1): 682-690, Zufferey et al., 안전하고 효율적인 생체내 유전자 전달을 위한 자가-불활성화 렌티바이러스 벡터, J. Virol.(1998) 72(12): 9873-9880]에 포함될 수 있다. 상기 언급된 바이러스 벡터-기반 백신 플랫폼의 패키징 용량에 의존적으로, 이 접근법은 하나 이상의 신생항원 펩타이드를 인코딩하는 하나 이상의 뉴클레오타이드 서열을 전달할 수 있다. 상기 서열은 돌연변이가 없는 서열이 측접할 수 있고, 링커에 의해 분리될 수 있거나, 세포하 구획을 표적으로 하는 하나 이상의 서열이 선행될 수 있다 [예를 들어, Gros 등,흑색종 환자의 말초 혈액에서 신생항원-특이적 림프구의 유망한 동정, Nat Med.(2016) 22(4): 433-8, Stronen et al., 공여체-유래된 T-세포 수용체 레퍼토리를 가진 암 신생항원의 표적화, Science. (2016) 352(6291): 1337-41, Lu et al, 내구성 종양 퇴화와 관련된 T-세포에 의해 인식되는 돌연변이된 암 항원의 효율적인 동정, Clin Cancer Res.(2014) 20(13): 3401-10 참조]. 숙주 내로 도입되면, 감염된 세포는 신생항원을 발현하여 숙주 면역(예를 들어, CTL) 반응을 펩타이드(들)에 대하여 유도하였다. 면역화 프로토콜에 유용한 백시니아 벡터 및 방법은 예를 들어, 미국 특허 제4,722,848호에 기재되어 있다. 또 다른 벡터는 BCG(Bacille Calmette Guerin)이다. BCG 벡터는 Stover et al. [Nature 351: 456-460(1991)]에 기재되어 있다. 신생항원의 치료적 투여 또는 면역화에 유용한 다양한 다른 백신 벡터, 예를 들어, 살모넬라 타이피 벡터 등은 본원의 설명으로부터 당해 분야의 숙련가에게 분명할 것이다. 　

핵산을 투여하는 수단은 하나 또는 복수의 에피토프를 인코딩하는 미니유전자(minigene) 작제물을 사용한다. 인간 세포에서의 발현을 위해 선택된 CTL 에피토프(미니유전자)를 인코딩하는 DNA 서열을 생성하기 위해, 에피토프의 아미노산 서열은 역번역된다. 인간 코돈 사용법 표는 각각의 아미노산에 대한 코돈 선택을 안내하는데 사용된다. 이들 에피토프-인코딩 DNA 서열은 직접 인접하여, 연속 폴리펩타이드 서열을 생성한다. 발현 및/또는 면역원성을 최적화하기 위해, 추가 요소가 미니유전자 디자인에 편입될 수 있다. 역번역되고 미니유전자 서열에 포함될 수 있는 아미노산 서열의 예는 헬퍼 T 림프구, 에피토프, 리더(신호) 서열 및 소포체 보유 신호를 포함한다. 또한, CTL 에피토프의 MHC 제시는 CTL 에피토프에 인접한 합성(예를 들어, 폴리-알라닌) 또는 자연 발생 측접 서열을 포함시킴으로써 개선될 수 있다. 　미니유전자 서열은 미니유전자의 플러스 및 마이너스 가닥을 인코딩하는 올리고뉴클레오타이드를 조립하여 DNA로 전환된다. 중첩된 올리고뉴클레오타이드(30-100 염기 길이)가 합성되고, 인산화되고, 정제되고, 공지된 기술을 사용하여 적절한 조건하에 어닐링된다. 올리고뉴클레오타이드의 단부는 T4 DNA 리가제를 사용하여 연결된다. CTL 에피토프 폴리펩타이드를 인코딩하는 이 합성 미니유전자는 원하는 발현 벡터로 클로닝될 수 있다. 　

정제된 플라스미드 DNA는 다양한 제형을 사용하여 주사를 위해 제조될 수 있다. 이들의 가장 간단한 방법은 멸균된 인산염-완충 식염수(PBS)에서 동결건조된 DNA를 재구성하는 것이다. 다양한 방법이 기재되었으며, 새로운 기술이 이용가능해질 수 있다. 전술한 바와 같이, 핵산은 양이온성 지질로 편리하게 제형화된다. 또한, 당지질, 융합유도(fusogenic) 리포좀, 펩타이드 및, 보호성, 상호작용, 비-응축(PINC)으로 총칭되는 화합물은 정제된 플라스미드 DNA와 복합체화되어 안정성, 근육내 분산 또는 특이적인 기관 또는 세포 유형에 대한 이송(trafficking)과 같은 변수에 영향을 줄 수 있다. 　

또한, 본원에 개시된 방법의 단계를 수행하는 단계; 및 복수의 신생항원 또는 상기 복수의 신생항원의 서브셋을 포함하는 종양 백신을 생산하는 단계를 포함하는 종양 백신의 제조 방법이 개시된다.

본원에 개시된 신생항원은 당해 분야에 공지된 방법을 사용하여 제조될 수 있다. 예를 들어, 본원에 개시된 신생항원 또는 벡터(예를 들어, 하나 이상의 신생항원을 인코딩하는 적어도 하나의 서열을 포함하는 벡터)를 생산하는 방법은 신생항원 또는 벡터를 발현시키기에 적합한 조건하에 숙주 세포를 배양하는 단계로서, 상기 숙주세포가 신생항원 또는 벡터를 인코딩하는 적어도 하나의 폴리뉴클레오타이드를 포함하는 단계, 및 신생항원 또는 벡터를 정제하는 단계를 포함할 수 있다. 표준 정제 방법에는 크로마토그래피 기술, 전기영동, 면역학, 침전, 투석, 여과, 농축 및 크로마토포커싱 기술이 포함된다.

숙주 세포에는 중국 햄스터 난소(CHO) 세포, NS0 세포, 효모 또는 HEK293 세포가 포함될 수 있다. 숙주 세포는 본원에 개시된 신생항원 또는 벡터를 인코딩하는 적어도 하나의 핵산 서열을 포함하는 하나 이상의 폴리뉴클레오타이드로 형질전환될 수 있으며, 임의로, 단리된 폴리뉴클레오타이드는 신생항원 또는 벡터를 인코딩하는 적어도 하나의 핵산 서열에 작동가능하게 연결된 프로모터 서열을 추가로 포함한다. 특정한 구현예에서, 단리된 폴리뉴클레오타이드는 cDNA일 수 있다.

VI. 신생항원 동정

VI.A. 신생항원 후보 동정.

종양과 정상 엑솜 및 전사체들의 NGS 분석을 위한 연구 방법은 신생항원 동정 공간에서 기재되고 적용되었다.^6,14,15 아래의 예는 임상 환경에서 신생항원 동정에 대한 민감도와 특이도를 높이기 위한 특정한 최적화를 고려한다. 이러한 최적화는 실험실 프로세스와 관련된 영역 및 NGS 데이터 분석과 관련된 영역의 두 영역으로 그룹화될 수 있다.

VI.A.1. 실험실 프로세스 최적화

이 프로세스 개선은 표적화된 암 패널에서 신뢰할 만한 암 드라이버 유전자 평가를 위해 개발된 개념을 확장하여 종양 함량이 낮고 용적이 적은 임상 시료로부터, 신생항원 동정에 필요한 전체- 엑솜 및 -전사체 설정까지, 고-정확도 신생항원 발견에 대한 과제를 다룬다. 특히, 이러한 개선 사항은 하기의 것들을 포함한다:

1. 낮은 종양 함량 또는 하위클론 상태로 인해 낮은 돌연변이체 대립유전자에 존재하는 돌연변이를 검출하기 위해 종양 엑솜에 걸친 깊은 (> 500×) 특유의 평균 적용범위를 표적화한다.

2. <100×에서 커버된 염기의 5% 미만을 가진 종양 엑솜에 걸친 균일한 적용범위를 표적화하여 가능한 최소한의 신생항원을 놓치며, 예를 들어:

a. 개별 프로브 QC로 DNA-기반 포획 프로브 사용¹⁷

b. 저조하게 커버된 영역에 대한 추가의 유인물질 포함

3. 정상적인 엑솜에서 균일한 적용범위를 표적화하며, 염기의 5% 미만이 <20×에서 커버되어, 가장 적은 신생항원이 체세포/생식 계열 상태에 대해 분류되지 않은 채로 남아있을 수 있음(및 따라서 TSNA로는 사용할 수 없음)

4. 요구되는 서열분석의 총량을 최소화하기 위해, 서열 포획 프로브는 유전자의 암호화 영역에 대해서만 설계될 것이며, 비-인코딩 RNA는 신생항원을 생성시킬 수 없다. 추가의 최적화는 하기의 것들을 포함한다:

a. GC-풍부하고 표준 엑솜 서열분석으로는 잘 포착되지 않는, HLA 유전자에 대한 보충 프로브¹⁸

b. 불충분한 발현, 프로테아솜에 의한 차선의 소화 또는 비정상적인 서열 특징과 같은 인자로 인해 후보 신생항원을 거의 또는 전혀 생성하지 않을 것으로 예상되는 유전자의 배제.

5. 종양 RNA는 변이형 검출, 유전자 및 스플라이스 변이체("동형체") 발현의 정량화 및 융합 검출을 가능하게 하기 위해 높은 깊이(> 100M 판독)에서 마찬가지로 서열분석될 것이다. FFPE 샘플의 RNA는 DNA의 엑솜을 포획하는데 사용되는 프로브와 동일하거나 유사한 프로브를 갖는 프로브-기반 농축물을 사용하여 추출될 것이다.¹⁹

VI.A.2. NGS 데이터 분석 최적화

분석 방법의 개선은 일반적인 연구 돌연변이 결정 접근법의 차선의 민감도와 특이성을 다루며, 구체적으로 임상 환경에서 신생항원 동정과 관련된 맞춤화를 고려한다. 이들은 하기를 포함한다:

1. HG38 참조 인간 게놈 또는 이후 버전의 정렬을 사용하여, 다중 MHC 영역 어셈블리가 포함되어 있으므로 이전 게놈 릴리스와 대조적으로 모집단 다형성을 더 잘 반영한다.

2. 상이한 프로그램의 결과를 병합하여 단일 변이 결정²⁰의 한계 극복.⁵

a. 단일 뉴클레오타이드 변이 및 인델은 종양 DNA, 종양 RNA 및 정상 DNA에서 하기를 포함하는 도구 모음을 통해 검출될 것이다: Strelka²¹ 및 Mutect²²와 같은 종양 및 정상 DNA의 비교를 기반으로 한 프로그램; 및 종양 DNA, 종양 RNA 및 UNCeqR과 같은 정상 DNA를 포함시키는 프로그램을 포함하며, 이는 저-순도 샘플²³에서 특히 유리하다.

b. Indrel은 Strelka 및 ABRA²⁴와 같은 국부 재-조립을 수행하는 프로그램으로 결정될 것이다.

c. 구조 재배열은 Pindel²⁵ 또는 Breakseq²⁶과 같은 전용 도구를 사용하여 결정될 것이다.

3. 샘플 교환을 감지하고 방지하기 위해, 동일한 환자의 샘플에서 변이 결정이 선택된 다형성 부위 수와 비교될 것이다.

4. 예를 들어 하기와 같은 방법으로 인공물질의 결정을 광범위하게 필터링할 것이다:

a. 낮은 적용범위의 경우 완화된 검출 파라미터로 잠재적으로 정상 DNA에서 발견된 변이의 제거 및 인델의 경우 허용되는 근접성 기준으로 제거

b. 낮은 맵핑 품질 또는 낮은 기본 품질로 인해 변이 제거²⁷.

c. 상응하는 정상에서 관찰되지 않더라도 반복적인 서열분석 인공물로 인한 변이 제거²⁷. 예로는 주로 한 가닥 상에서 검출된 변이를 포함한다.

d. 관련없는 대조군 세트에서 감지된 변이 제거²⁷.

5. seq2HLA²⁸, ATHLATES²⁹ 또는 Optitype 중 하나를 사용하고, 엑솜과 RNA 서열분석 데이터를 조합하여 정상 엑솜에서 정확한 HLA 결정.²⁸ 추가의 잠재적인 최적화로는 장시간-판독 DNA 서열분석과 같은 HLA 타이핑을 위한 전용 분석의 채택³⁰, 또는 연속성을 유지하기 위해 RNA 단편을 결합하는 방법의 조정³¹이 포함된다.

6. 종양 특이적인 스플라이스 변이에서 발생하는 신생 ORF의 강력한 검출은 CLASS³², Bayesembler³³, StringTie³⁴ 또는 유사 프로그램을 그의 참조-지침 모드로 사용하여 (즉, 각 실험에서 그의 전부에서 전사체를 재작성하려는 시도가 아니라 알려진 전사체 구조를 사용하여) RNA-서열 분석 데이터에서 전사체를 조합하여 수행될 것이다. 이 목적을 위해 Cufflinks³⁵가 일반적으로 사용되지만, 흔히 믿기 어려울 정도의 많은 수의 스플라이스 변이체를 생성하며, 대다수가 전장 유전자보다 훨씬 짧으며, 간단한 양성 대조군을 복구하지 못할 수 있다. 암호화 서열 및 논센스-매개된 붕괴 가능성은 SpliceR³⁶ 및 MAMBA³⁷와 같은 도구를 사용하여 측정될 것이며, 돌연변이체 서열이 재-도입된다. 유전자 발현은 Cufflinks³⁵ 또는 Express(Roberts and Pachter, 2013)와 같은 도구로 측정될 것이다. 야생형 및 돌연변이체-특이적인 발현 양 및/또는 상대 수준은 ASE³⁸ 또는 HTSeq³⁹와 같이 이러한 목적을 위해 개발된 도구로 측정될 것이다. 잠재적인 필터링 단계는 하기의 것들을 포함한다:

a. 불충분하게 발현된 것으로 간주되는 후보 신생-ORF의 제거.

b. 논센스-매개된 붕괴(NMD)를 유발할 것으로 예상되는 후보 신생-ORF의 제거.

7. 종양-특이적으로 직접 동정될 수 없는 RNA (예를 들어, 신생 ORF)에서만 관찰되는 후보 신생항원은 추가의 파라미터에 따라, 예를 들어 하기를 고려하여 종양-특이적일 가능성이 높은 것으로 분류될 것이다:

a. 종양 DNA-단독 시스-작용 프레임 이동 또는 스플라이스-부위 돌연변이를 지지하는 것의 존재

b. 스플라이싱 인자에서 종양 DNA-단독 트랜스-작용 돌연변이 확증의 존재.예를 들어, R625-돌연변이체 SF3B1을 이용한 독립적으로 발표된 3건의 실험에서, 하나의 실험에서 포도막 흑색종 환자⁴⁰, 두 번째 포도막 흑색종 세포주⁴¹ 및 세 번째 유방암 환자⁴²를 검사했지만, 가장 차별적인 스플라이싱을 나타내는 유전자는 일치했다.

c. 신규한 스플라이싱 동형체의 경우, RNASeq 데이터에서 확증된 "신규한" 스플라이스-접합 판독의 존재.

d. 새로운 재조합의 경우, 정상 DNA에 없는 종양 DNA내 확증하는 juxta-엑손 판독의 존재.

e. GTEx⁴³과 같은 유전자 발현 개요의 부재(즉, 생식 계열 기원의 가능성을 낮추는 것)

8. 조립된 DNA 종양과 정상 판독(또는 그러한 판독으로부터의 k-량체)을 직접 비교하여 정렬 및 주석 기반 오류 및 인공물을 피함으로써 참조 게놈 정렬-기반 분석을 보완(예를 들어, 생식 계열 변이체 또는 반복-컨텍스트 인델 근처에서 발생하는 체세포 변이).

폴리-아데닐화 RNA가 있는 샘플에서, RNA-서열 분석 데이터의 바이러스 및 미생물 RNA의 존재 여부는 환자반응을 예측할 수 있는 추가 요인을 동정하기 위해 RNA CoMPASS⁴⁴ 또는 유사한 방법을 사용하여 평가될 것이다.

VI.B.HLA 펩타이드의 분리 및 검출

HLA-펩타이드 분자의 단리는 조직 샘플의 용해 및 가용화 후에 통상적인 면역침강(IP) 방법을 사용하여 수행하였다^55-58. 정화된 용해물을 HLA 특이적 IP로 사용하였다.

면역침강은 항체가 HLA 분자에 특이적인 비드에 커플링된 항체를 사용하여 수행하였다. 범-부류(pan-Class) I HLA 면역침강의 경우, 범-부류 I CR 항체가 사용되며, 부류 Ⅱ HLA-DR의 경우, HLA-DR 항체가 사용된다. 항체를 밤새 배양하면서 NHS-세파로스 비드에 공유결합시킨다. 공유결합 후, 비드를 세정하고 IP에 대해 분주하였다.^59,60 면역침강은 또한 비드에 공유적으로 부착되지 않는 항체로 수행될 수 있다. 일반적으로 이는 단백질 A 및/또는 단백질 G로 코딩된 세파로스 또는 자기 비드를 사용하여 수행되어 항체를 컬럼에 고정시킨다. MHC/펩타이드를 선택적으로 풍부하게 하기 위해 사용될 수 있는 일부 항체가 아래에 나열되어 있다.

면역침강을 위해 항체 비드에 상기 정화된 조직 용해물을 첨가한다. 면역침강 후, 용해물에서 비드를 제거하고, 용해물은 추가의 IP를 포함하여 추가 실험을 위해 저장된다. IP 비드를 세정하여 비특이적 결합을 제거하고, 표준 기술을 사용하여 HLA/펩타이드 복합체를 비드에서 용출한다. 단백질 성분은 분자량 스핀 컬럼 또는 C18 분별화를 사용하여 펩타이드로부터 제거된다. 수득된 펩타이드를 SpeedVac 증발에 의해 건조시키고, 일부 경우에는 MS 분석 전에 -20℃에서 저장한다.

건조된 펩타이드를 역상 크로마토그래피에 적합한 HPLC 완충액에서 재구성하고, 퓨전 루모스(Fusion Lumos) 질량 분광분석기(Thermo)에서 구배 용출을 위한 C-18 미세모세관 HPLC 칼럼에 로딩하였다. 펩타이드 질량/전하(m/z)의 MS1 스펙트럼을 Orbitrap 검출기에서 고해상도로 수집한 다음, 선택된 이온의 HCD 단편화 후에 이온 트랩 검출기에서 수집한 MS2 저해상도 스캔을 수행하였다. 추가로, MS2 스펙트럼은 CID 또는 ETD 단편화 방법 또는, 펩타이드의 더 큰 아미노산 적용범위를 달성하기 위한 세 가지 기술의 임의의 조합을 사용하여 얻어질 수 있다. MS2 스펙트럼은 또한 Orbitrap 검출기에서 고해상도 질량 정확도로 측정될 수 있다.

각각의 분석으로부터의 MS2 스펙트럼은 Comet^61,62을 사용하여 단백질 데이터베이스에 대해 검색하고, 펩타이드 동정은 퍼콜레이터(Percolator)^63-65를 사용하여 채점한다. PEAKS studio (Bioinformatics Solutions Inc.)를 사용하여 추가 서열분석을 수행하고 스펙트럼 매칭 및 데노보(de novo) 서열분석을 포함한 다른 검색 엔진 또는 서열분석 방법을 사용할 수 있다⁷⁵.

VI.B.1. 포괄적인 HLA 펩타이드 서열분석을 지원하는 검출 연구의 MS 한계.

펩타이드 YVYVADVAAK를 사용하여 어떤 검출 한계가 LC 칼럼 상에 로딩된 상이한 양의 펩타이드를 사용하는지가 결정되었다. 시험된 펩타이드의 양은 1 pmol, 100 fmol, 10 fmol, 1f mol 및 100 amol이었다. (표 1) 결과를 도 1f에 나타내었다. 이들 결과는 최저 검출 한계(LoD)가 아토몰 범위(10^-18)에 있고, 동적 범위가 5배 이상이며 노이즈에 대한 신호가 낮은 펨토몰 범위(10^-15)에서의 서열분석에 충분하다는 것을 나타낸다.

VⅡ. 제시 모델

VⅡ.A. 시스템 개요

도 2a는 일 구현예에 따라, 환자에서의 펩타이드 제시 가능성을 동정하기 위한 환경(100)의 개요이다. 환경(100)은 제시 정보 저장소(165)를 포함하는 제시 동정 시스템(160)을 도입하기 위한 문맥을 제공한다.

제시 동정 시스템(160)은 도 29와 관련하여 후술되는 바와 같이 컴퓨팅 시스템에서 구현되는 것 또는 컴퓨터 모델이며, MHC 대립유전자 세트와 관련된 펩타이드 서열을 수신하고 펩타이드 서열이 하나 이상의 MHC 대립유전자 세트에 의해 제시될 가능성을 결정한다. 제시 동정 시스템(160)은 부류 I 및 MHC 대립유전자 둘 모두에 적용될 수 있다. 이것은 다양한 상황에서 유용한다. 제시 동정 시스템(160)을 위한 하나의 특정한 용도 케이스는 환자(110)의 종양 세포로부터 MHC 대립유전자 세트와 관련된 후보 신생항원의 뉴클레오타이드 서열을 수신할 수 있고, 종양의 관련된 MHC 대립유전자의 하나 이상에 의해 후보 신생항원이 제시되고/되거나 환자(110)의 면역계에서 면역원성 반응을 유도할 가능성을 결정할 수 있다는 것이다. 시스템(160)에 의해 결정된 바와 같은 높은 가능성을 갖는 상기 후보 신생항원은 백신(118)에 포함되도록 선택될 수 있으며, 따라서 종양 세포를 제공하는 환자(110)의 면역계로부터 항 종양 면역 반응이 유발될 수 있다. 또한, 높은 제시 가능성을 갖는 후보 신생항원에 반응하는 TCR을 갖는 T-세포는 T-세포 요법에 사용하기 위해 생성될 수 있으며, 이에 의해 환자 (110)의 면역계로부터 항 종양 면역 반응을 유 할 수 있다.

제시 동정 시스템(160)은 하나 이상의 제시 모델을 통해 제시 가능성을 결정한다. 구체적으로, 제시 모델은 주어진 펩타이드 서열이 관련된 MHC 대립유전자의 세트에 대해 제시되는지의 가능성을 생성하고, 스토어(165)에 저장된 제시 정보에 기초하여 생성된다. 예를 들어, 제시 모델은 펩타이드 서열 "YVYVADVAAK"이 샘플의 세포표면 상에 대립유전자 HLA-A*02:01, HLA-A*03:01, HLA-B*07:02, HLA-B*08:03, HLA-C*01:04의 세트에 대해 제시될 가능성을 생성할 수 있다. 제시 정보(165)는 펩타이드가 상이한 유형의 MHC 대립유전자에 결합하여 펩타이드 서열 내의 아미노산의 위치에 따라 모델이 결정되는 MHC 대립유전자에 의해 그 펩타이드가 제시되는지 여부에 대한 정보를 포함한다. 제시 모델은 인식되지 않은 펩타이드 서열이 제시 정보(165)에 기초하여 관련된 MHC 대립유전자 세트와 회합하여 제시되는지 여부를 예측할 수 있다. 전술한 바와 같이, 제시 모델은 부류 I 및 MHC 대립유전자 둘 다에 적용될 수 있다.

VⅡ.B. 제시 정보

도 2는 일 구현예에 따른 제시 정보를 획득하는 방법을 설명한다. 제시 정보(165)는 2개의 일반적인 정보 카테고리를 포함한다: 대립유전자-상호작용 정보 및 대립유전자-비상호작용 정보. 대립유전자-상호작용 정보는 MHC 대립유전자의 유형에 의존적인 펩타이드 서열의 제시에 영향을 미치는 정보를 포함한다. 대립유전자-비상호작용 정보는 MHC 대립유전자의 유형에 독립적인 펩타이드 서열의 제시에 영향을 주는 정보를 포함한다.

VⅡ.B.1. 대립유전자-상호작용 정보

대립유전자-상호작용 정보는 주로 인간, 마우스 등으로부터 하나 이상의 동정된 MHC 분자에 의해 제시된 것으로 알려진 동정된 펩타이드 서열을 포함한다. 특히, 이것은 종양 샘플에서 얻은 데이터를 포함할 수도 있고 포함하지 않을 수도 있다. 제시된 펩타이드 서열은 단일 MHC 대립유전자를 발현하는 세포로부터 동정될 수 있다. 이 경우 제시된 펩타이드 서열은 일반적으로 예정된 MHC 대립유전자를 발현하도록 조작되고, 이어서 합성 단백질에 노출되는 단일-대립유전자 세포주로부터 수집된다. MHC 대립유전자 상에 제시된 펩타이드는 산-용출과 같은 기술에 의해 단리되고, 질량 분광분석법을 통해 동정된다. 도 2b는 예정된 MHC 대립유전자 HLA-DRB1*12:01에 제시된 예시적인 펩타이드 YEMFNDKSQRAPDDKMF가 질량 분광분석법을 통해 단리되고 동정된 예를 도시한다. 이 상황에서 펩타이드는 하나의 미리 결정된 MHC 단백질을 발현하도록 조작된 세포를 통해 동정되기 때문에, 제시된 펩타이드와 그것이 결합된 MHC 단백질 사이의 직접적인 연관성이 명확히 알려져있다.

제시된 펩타이드 서열은 또한 다중 MHC 대립유전자를 발현하는 세포로부터 수집될 수 있다. 통상 인간에서, 6개의 상이한 유형의 MHC-I 및 최대 12개의 상이한 유형의 MHC-II 분자가 세포에 대해 발현된다. 상기 제시된 펩타이드 서열은 복수의 예정된 MHC 대립유전자를 발현하도록 조작된 다중-대립유전자 세포주로부터 동정될 수 있다. 상기 제시된 펩타이드 서열은 또한, 조직 샘플로부터, 정상 조직 샘플 또는 종양 조직 샘플로부터 동정될 수 있다. 이 경우 특히, MHC 분자는 정상 또는 종양 조직으로부터 면역침강될 수 있다. 다중 MHC 대립유전자 상에 제시된 펩타이드는 산-용출과 같은 기술로 유사하게 단리될 수 있고, 질량 분광분석법을 통해 동정될 수 있다. 도 2c는 동정된 부류 I MHC 대립유전자 HLA-A*01:01, HLA-A*02:01, HLA-B*07:02, HLA-B*08:01, 및 MHC 대립유전자 HLA-DRB1*10:01, HLA-DRB1:11:01에 대하여, 6개의 예시적인 펩타이드, YEMFNDKSF, HROEIFSHDFJ, FJIEJFOESS, NEIOREIREI, JFKSIFEMMSJDSSUIFLKSJFIEIFJ, 및 KNFLENFIESOFI가 제시되고, 질량 분광분석법을 통해 단리 및 동정되는 예를 도시한다. 단일-대립유전자 세포주와 대조적으로, 제시된 펩타이드와 결합된 MHC 단백질 사이의 직접적인 연관성은 결합된 펩타이드가 동정되기 전에 MHC 분자로부터 단리되기 때문에 알려지지 않을 수 있다.

대립유전자-상호작용 정보는 또한 펩타이드-MHC 분자 복합체의 농도 및 펩타이드의 이온화 효율에 좌우되는 질량 분광분석법 이온 전류를 포함할 수 있다. 이온화 효율은 서열-의존적인 방식으로 펩타이드에 따라 펩타이드마다 다양하다. 일반적으로, 이온화 효율은 대략 2차 등급 이상으로 펩타이드에 따라 다양한 반면, 펩타이드-MHC 복합체의 농도는 그보다 넓은 범위에 걸쳐 다양하다.

대립유전자-상호작용 정보는 또한 주어진 MHC 대립유전자와 주어진 펩타이드 사이의 결합 친화성의 측정 또는 예측을 포함할 수 있다.(72, 73, 74) 하나 이상의 친화성 모델이 상기 예측을 생성할 수 있다. 예를 들어, 하기에 도시된 예로 돌아가서, 도 1d에서, 제시 정보(165)는 펩타이드 YEMFNDKSF와 부류 I 대립유전자 HLA-A*01:01 사이의 1000nM의 결합 친화성 예측을 포함할 수 있다. IC50이 1000nm 초과인 펩타이드는 MHC에 의해 제공되지 않으며, IC50 값이 낮으면 제시 가능성이 높아진다. 제시 정보(165)는 펩타이드 KNFLENFIESOFI 및 대립유전자 HLA-DRB1:11:01 사이의 결합 친화도 예측을 포함할 수 있다.

대립유전자-상호작용 정보는 또한 MHC 복합체의 안정성에 대한 측정이나 예측을 포함할 수 있다. 상기 예측을 생성할 수 있는 하나 이상의 안정성 모델.보다 안정한 펩타이드-MHC 복합체(즉, 보다 긴 반감기를 갖는 복합체)는 종양 세포 및 백신 항원을 접하는 항원-제시 세포 상에 높은 복제수로 제시될 가능성이 더 높다. 예를 들어, 하기에 도시된 예로 돌아가서, 도 2c에서, 제시 정보(165)는 부류 I 분자 HLA-A*01:01에 대한 1시간의 반감기의 안정성 예측을 포함할 수 있다. 제시 정보(165)는 또한 부류 II 분자 HLA-DRB1:11:01에 대한 반감기의 안정성 예측을 포함할 수 있다.

대립유전자-상호작용 정보는 또한 펩타이드-MHC 복합체에 대한 형성 반응의 측정 또는 예측된 속도를 포함할 수 있다. 더 높은 속도로 형성되는 복합체는 고농도에서 세포 표면 상에 제시될 가능성이 더 크다.

대립유전자-상호작용 정보는 또한 펩타이드의 서열 및 길이를 포함할 수 있다. MHC 부류 I 분자는 통상 8 내지 15 펩타이드 길이의 펩타이드를 제시하는 것을 선호한다. 제시된 펩타이드의 60-80%는 길이 9를 갖는다. MHC 부류 II 분자는 전형적으로 6 내지 30개 사이의 펩타이드 길이의 펩타이드를 제공하는 것이 바람직하다.

대립유전자-상호작용 정보는 신생항원 인코딩된 펩타이드 상의 키나아제 서열 모티프의 존재 및 신생항원 인코딩된 펩타이드 상의 특이적인 번역후 변형의 부재 또는 존재를 포함할 수 있다. 키나아제 모티프의 존재는 MHC 결합을 강화시키거나 방해할 수 있는, 번역후 변형 가능성에 영향을 미친다.

대립유전자-상호작용 정보는 또한 번역후 변형 과정에 관여하는 단백질, 예컨대 키나아제의 발현 또는 활성 수준(RNA 서열분석, 질량 분광분석법 또는 다른 방법으로부터 측정되거나 예측된 바와 같음)를 포함할 수 있다.

대립유전자-상호작용 정보는 또한 질량-분광분석법 프로테오믹스 또는 다른 수단에 의해 평가된 바와 같이, 특정 MHC 대립유전자를 발현하는 다른 개체로부터의 세포에서 유사한 서열을 갖는 펩타이드의 제시 가능성을 포함할 수 있다.

대립유전자-상호작용 정보는 또한 문제의 개체에서 특정 MHC 대립유전자의 발현 수준을 포함할 수 있다(예를 들어 RNA-서열 분석 또는 질량 분광분석법에 의해 측정됨).높은 수준에서 발현되는 MHC 대립유전자에 가장 강하게 결합하는 펩타이드는 낮은 수준에서 발현되는 MHC 대립유전자에 가장 강하게 결합하는 펩타이드보다 더 많이 제시될 가능성이 있다.

대립유전자-상호작용 정보는 또한 특정 MHC 대립유전자를 발현하는 다른 개체에서 특정 MHC 대립유전자에 의한 제시의 전체 신생항원 인코딩된 펩타이드-서열-독립적 확률을 포함할 수 있다.

대립유전자-상호작용 정보는 또한 다른 개체에서, 동일한 계열의 분자(예를 들어, HLA-A, HLA-B, HLA-C, HLA-DQ, HLA-DR, HLA-DP)에서 MHC 대립유전자에 의한 제시의 펩타이드-서열-독립적 총 확률을 포함할 수 있다: 예를 들어, HLA-C 분자는 통상 HLA-A 또는 HLA-B 분자보다 낮은 수준에서 발현되며, 결과적으로 HLA-C에 의한 펩타이드의 제시는 HLA-A 또는 HLA-B에 의한 제시보다 덜 선험적이다. 또 다른 예에서, HLA-DP는 전형적으로 HLA-DR 또는 HLA-DQ보다 더 낮은 수준으로 발현되며; 결과적으로, HLA-DP에 의한 펩타이드의 제시는 HLA-DR 또는 HLA-DQ에 의한 제시보다 이전에 덜 선험적이다.

대립유전자-상호작용 정보는 또한 특정 MHC 대립유전자의 단백질 서열을 포함할 수 있다.

아래 섹션에 열거된 임의의 MHC 대립유전자-비상호작용 정보는 또한 MHC 대립유전자-상호작용 정보로 모델링될 수 있다.

VⅡ.B.2. 대립유전자-비상호작용 정보

대립유전자-비상호작용 정보는 그의 원천 단백질 서열 내에서 신생항원 인코딩 펩타이드에 측접한 C-말단 서열을 포함할 수 있다. MHC-I에 대해, C-말단 측접 서열은 펩타이드의 프로테아솜 처리에 영향을 미칠 수 있다. 그러나, C-말단 측접 서열은 펩타이드가 소포체로 수송되고 세포 표면상의 MHC 대립유전자를 만나기 전에 프로테아솜에 의해 펩타이드로부터 절단된다. 결과적으로, MHC 분자는 C-말단 측접 서열에 대한 어떠한 정보도 받지 않으며, 따라서 C-말단 측접 서열의 효과는 MHC 대립유전자 유형에 따라 변할 수 없다. 예를 들어, 도 2c에 도시된 예로 돌아가서, 제시 정보(165)는 펩타이드의 원천 단백질로부터 동정된 제시된 펩타이드 FJIEJFOESS의 C-말단 측접 서열 FOEIFNDKSLDKFJI를 포함할 수 있다.

대립유전자-비상호작용 정보는 또한 mRNA 정량 측정을 포함할 수 있다. 예를 들어, 질량 분광분석 훈련 데이터를 제공하는 동일한 샘플에 대해 mRNA 정량화 데이터를 얻을 수 있다. 도 13g를 참조하여 후술하는 바와 같이, RNA 발현은 펩타이드 제시의 강력한 예측변수로 동정되었다. 일 구현예에서, mRNA 정량화 측정은 소프트웨어 툴 RSEM으로부터 동정된다. RSEM 소프트웨어 도구의 상세한 구현은 Bo Li와 Colin N에서 찾을 수 있다. Dewey. RSEM: 참조 게놈이 있거나 없는 RNA-서열 분석 데이터로부터 정확한 전사체 정량화. BMC Bioinformatics, 12: 323, 2011년 8월일. 구현예에서, mRNA 정량화는 백만 맵핑된 판독치(FPKM) 당 전사체의 킬로베이스 당 단편 단위로 측정된다.

대립유전자-비상호작용 정보는 또한 그의 원천 단백질 서열 내 펩타이드에 측접한 N-말단 서열을 포함할 수 있다.

대립유전자-비상호작용 정보는 또한 펩타이드 서열의 공급원 유전자를 포함할 수 있다. 공급원 유전자는 펩타이듸 서열의 Ensembl 단백질 패밀리로서 정의될 수 있다. 다른 예로서, 공급원 유전자는 펩타이드 서열의 원천 DNA 또는 원천 RNA로서 정의될 수 있다. 예를 들어, 원천유전자는 단백질을 인코딩하는 뉴클레이타이드 스트링으로 표시되거나, 또는 대안적으로 특이적 단백질을 인코딩하는 것으로 알려진 공지된 DNA 또는 RNA 서열의 명명된 세트에 기초하여 보다 범주적으로 표현될 수 있다. 다른 예에서, 대립유전자-비상호작용 정보는 또한 Ensembl 또는 RefSeq와 같은 데이터베이스로부터 유도된 펩타이드 서열의 원천 전사체 또는 동형체 또는 잠재적인 원천 전사체 또는 동형체의 세트를 포함할 수 있다.

대립유전자-비상호작용 정보는 또한 펩타이드 서열의 기원 세포의 조직 유형, 세포 유형 또는 종양 유형 세포를 포함할 수 있다.

대립유전자-비-상호작용 정보는 또한 종양 세포에서 상응하는 프로테아제의 발현에 따라 선택적으로 가중된 펩타이드 내의 프로테아제 절단 모티프의 존재를 포함할 수 있다(RNA-서열 분석 또는 질량 분광분석법으로 측정됨). 프로테아제 절단 모티프를 함유하는 펩타이드는 프로테아제에 의해 보다 쉽게 분해되고 따라서 세포 내에서 덜 안정적일 것이므로 제시될 가능성이 적다.

대립유전자-비상호작용 정보는 또한 적절한 세포 유형에서 측정된 원천 단백질의 전환율을 포함할 수 있다. 빠른 전환율(즉, 더 낮은 반감기)은 제시 가능성을 높이지만; 이 특징의 예측력은 비유사 세포 유형에서 측정할 경우 낮다.

대립유전자-비상호작용 정보에는 RNA-서열 분석 또는 단백체 질량 분광분석법으로 측정된 바와 같이, 또는 DNA 또는 RNA 서열 데이터에서 검출된 생식 계열 또는 체세포 스플라이싱 돌연변이의 주석으로부터 예상된 바와 같이, 종양 세포에서 가장 많이 발현되는 특정한 스플라이스 변이체("동형체")를 선택적으로 고려한 원천 단백질의 길이를 포함할 수 있다.

대립유전자-비상호작용 정보는 프로테아솜, 면역프로테아솜, 흉선프로테아솜, 또는 종양세포내 기타 프로테아제의 발현 수준을 포함할 수 있다(RNA-서열 분석, 단백체 질량 분광분석법, 또는 면역조직화학에 의해 측정될 수 있음). 상이한 프로테아솜은 상이한 절단 부위 선호도를 갖는다. 단백질의 발현 수준에 비례하여 각 유형의 프로테아솜의 절단 선호에 더 많은 무게가 주어질 것이다.

대립유전자-비상호작용 정보는 또한 펩타이드의 공급원 유전자의 발현을 포함할 수 있다(예를 들어, RNA-서열 분석 또는 질량 분광분석법에 의해 측정됨).가능한 최적화는 종양 샘플 내의 기질 세포 및 종양-침윤 림프구의 존재를 설명하기 위해 측정된 발현을 조정하는 것을 포함한다. 더 고도로 발현된 유전자로부터의 펩타이드가 제시될 가능성이 더 높다. 검출불가능한 발현 수준을 갖는 유전자로부터의 펩타이드는 고려에서 배제될 수 있다.

대립유전자-비상호작용 정보는 신생항원 인코딩된 펩타이드의 소스 mRNA가 논센스-매개된 감쇠의 모델, 예를 들어 Rivas et al. Science 2015로부터의 모델에 의해 예측된 바와 같이 논센스-매개된 감쇠될 것가능성을 포함할 수 있다.

대립유전자-비상호작용 정보는 또한 세포주기의 다양한 단계 동안 펩타이드의 공급원 유전자의 통상적인 조직-특이적인 발현을 포함할 수 있다. (RNA-서열 분석 또는 질량 분광분석법 프로테오믹스로 측정된 바와 같이) 전반적으로 낮은 수준으로 발현되지만 세포주기의 특정한 단계에서 높은 수준으로 발현되는 것으로 알려진 유전자는 매우 낮은 수준에서 안정적으로 발현되는 유전자보다 더 많이 제시된 펩타이드를 생성할 가능성이 있다.

대립유전자-비상호작용 정보는 또한, 예를 들어 uniProt 또는 PDB http:// www.rcsb.org/pdb/home/home.do/에 주어진 바와 같은 원천 단백질의 특징의 포괄적 카탈로그를 포함할 수 있다. 상기 특징들은 그중에서도 단백질의 2차 및 3차 구조, 세포하 국재화 11, 세포 존재론(Gene ontology, GO) 용어를 포함할 수 있다. 구체적으로, 이 정보는 단백질 수준에서 작용하는 주석, 예를 들어 5 'UTR 길이, 및 잔기 300 및 310 사이의 나선 모티프와 같은 특정한 잔기의 수준에서 작용하는 주석를 포함할 수 있다. 이러한 특징은 회전 모티프, 시트 모티프 및 불규칙 잔류물을 포함할 수 있다.

대립유전자-비상호작용 정보는 또한 펩타이드를 함유하는 원천 단백질의 도메인의 특성을 기술하는 특징, 예를 들어 하기를 포함할 수 있다: 2차 또는 3차 구조(예를 들어, 알파 나선구조 대 베타 시트); 대안적인 스플라이싱.

대립유전자-비상호작용 정보는 또한 신생항원의 펩타이드 서열과 (본 대상체의 뉴클레오타이드 서열분석 데이터에 존재하는) 신생항원의 공급원 유전자의 복수의 k-mer 블록의 하나 이상의 k-mer 블록 사이의 회합을 포함 할 수 있다. 제시 모델의 훈련 동안, 신생항원의 펩타이드 서열과 신생항원의 뉴클레오티드 서열분석 데이터의 k-mer 블록 사이의 이들 회합이 모델에 입력되고, 훈련 펩타이드 서열과 관련된 k-mer 블록에 대한 제시 핫스팟의 존재 또는 부재를 나타내는 모델 파라미터를 배우기 위해 사용하기 위한 모델에 의해 부분적으로 사용된다. 그 후, 훈련 후 모델을 사용하는 동안, 테스트 펩타이드 서열과 시험 펩타이드 서열의 공급원 유전자의 하나 이상의 k-mer 블록 사이의 회합이 모델, 및 제시 모델이 시험 펩타이드 서열의 제시 가능성에 관한 보다 정확한 예측을 하기 위한 훈련 동안 모델에 의해 학습된 파라미터에 입력된다.

일반적으로, k-mer 블록에 대한 제시 핫스팟의 존재 또는 부재를 나타내는 모델의 파라미터는 모든 다른 변수를 제어한 후 k-mer 블록이 제시된 펩타이드를 야기할 잔류 경향을 나타낸다(예를 들어, 펩타이드 서열, RNA 발현, HLA-결합 펩타이드에서 흔히 발견되는 아미노산 등). k-mer 블록에 대한 제시 핫스팟의 존재 또는 부재를 나타내는 파라미터는 이진 계수 (예를 들어, 0 또는 1), 또는 스케일에 따른 아날로그 계수 (예를 들어, 0 내지 1 포함) 일 수 있다. 어느 경우에나, 더 큰 계수 (예를 들어, 1 또는 1에 더 가까운)는 k-mer 블록이 다른 인자를 제어하는 제시된 펩타이드를 야기할 가능성이 더 큰 반면, 더 낮은 계수 (예를 들어, 0 또는 0에 더 가까운)는 k-mer 블록이 제시된 펩타이드를 생성할 가능성이 낮다. 예를 들어, 핫스팟 계수가 낮은 k-mer 블록은 HLA-결합 펩타이드에서 일반적으로 발견되는 아미노산을 가진 RNA 발현이 높은 유전자의 k-mer 블록일 수 있으나, 그러나 제시된 펩타이드는 k-mer 블록에서 거의 보이지 않는다. 펩타이드 존재의 다른 공급원이 이미 다른 파라미터 (예를 들어, HLA-결합 펩타이드에서 일반적으로 발견되는 k-mer 블록 이상의 RNA 발현)에 의해 설명될 수 있기 때문에, 이러한 핫스팟 파라미터는 다른 매개 변수로 캡처한 정보를 "더블 카운트" 하지 않는 새로운 별도의 정보를 제공한다.

대립유전자-비상호작용 정보는 또한 (이들 개체에서 원천 단백질의 발현 수준 및 개개인의 상이한 HLA 유형의 영향을 조정한 후) 다른 개체에서 해당 펩타이드의 원천 단백질로부터 펩타이드를 제시할 가능성을 포함할 수 있다.

대립유전자-비상호작용 정보는 기술적인 편향으로 인해 펩타이드가 검출되지 않거나 질량 분광분석법으로 과다 표현될 확률을 포함할 수 있다.

RNASeq, 마이크로어레이(들), 표적 패널(들), 예컨대 나노스트링 (Nanostring)과 같은 유전자 발현 분석으로 측정된 다양한 유전자 모듈/경로, 또는 종양 세포, 간질 또는 종양 침윤 림프구(TIL)의 상태에 대한 정보를 제공하는 RT-PCR과 같은 분석법으로 측정된 유전자 모듈의 단일/다중-유전자 대표(펩타이드의 원천 단백질을 포함할 필요가 없음)의 발현.

대립유전자-비상호작용 정보는 또한 종양 세포내 펩타이드의 공급원 유전자의 복제수를 포함할 수 있다. 예를 들어, 종양 세포에서 동종접합성 결실을 겪는 유전자의 펩타이드는 0의 제시 확률을 배정받을 수 있다.

대립유전자-비상호작용 정보는 또한 펩타이드가 TAP에 결합할 확률 또는 TAP에 대한 펩타이드의 측정된 또는 예측된 결합 친화성을 포함할 수 있다. TAP에 더 많이 결합할 가능성이 있는 펩타이드 또는 더 높은 친화성으로 TAP에 결합하는 펩타이드가 MHC-I에 의해 제시될 가능성이 더 크다.

대립유전자-비상호작용 정보는 종양 세포에서 TAP의 발현 수준(RNA-서열 분석, 단백체 질량 분광분석법, 면역조직화학법으로 측정될 수 있음)을 포함할 수도 있다. MHC-I에 대해, 더 높은 TAP 발현 수준은 모든 펩타이드의 제시 확률을 증가시킨다.

대립유전자-비상호작용 정보는 또한, 하기를 비제한적으로 포함하는 종양 돌연변이의 존재 또는 부재를 포함할 수 있다:

i. 공지된 암 드라이버 유전자 예컨대 EGFR, KRAS, ALK, RET, ROS1, TP53, CDKN2A, CDKN2B, NTRK1, NTRK2, NTRK3의 유발 돌연변이

ii. 항원 제시 장치에 관여하는 단백질을 인코딩하는 내부(In) 유전자(예를 들어, B2M, HLA-A, HLA-B, HLA-C, TAP-1, TAP-2, TAPBP, CALR, CNX, ERP57, HLA-DM, HLA-DMA, HLA-DMB, HLA-DO, HLA-DOA, HLA-DOBHLA-DP, HLA-DPA1, HLA-DPB1, HLA-DQ, HLA-DQA1, HLA-DQA2, HLA-DQB1, HLA-DQB2, HLA-DR, HLA-DRA, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5, 또는 프로테아솜 또는 면역프로테아솜의 구성요소를 암호화하는 임의의 유전자). 종양에서 기능-상실 돌연변이를 일으키는 항원-제시 장치의 구성 요소에 제시가 의존하는 펩타이드는 제시 확률을 감소시킨다.

하기를 비제한적으로 포함하는, 기능성 생식 계열 다형성의 존재 또는 부재:

i. 항원 제시 장치에 관여하는 단백질을 인코딩하는 내부(In) 유전자(예를 들어,B2M, HLA-A, HLA-B, HLA-C, TAP-1, TAP-2, TAPBP, CALR, CNX, ERP57, HLA-DM, HLA-DMA, HLA-DMB, HLA-DO, HLA-DOA, HLA-DOBHLA-DP, HLA-DPA1, HLA-DPB1, HLA-DQ, HLA-DQA1, HLA-DQA2, HLA-DQB1, HLA-DQB2, HLA-DR, HLA-DRA, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5, 또는 프로테아솜 또는 면역프로테아솜의 구성요소를 암호화하는 임의의 유전자)

대립유전자-비상호작용 정보는 또한 종양 유형(예를 들어, NSCLC, 흑색종)을 포함할 수 있다.

대립유전자-비상호작용 정보는 또한 예를 들어 HLA 대립유전자 접미사에 의해 반영되는 HLA 대립유전자의 공지된 기능을 포함할 수 있다. 예를 들어, 대립유전자 이름 HLA-A*24:09N의 N 접미사는 발현되지 않은 무반응(null) 대립유전자를 나타내므로며, 따라서 에피토프를 나타내지 않을 수 있으며; 전체 HLA 대립유전자 접미사 명명법은 https://www.ebi.ac.uk/ipd/imgt/hla/nomenclature/suffixes. html에 기재되어 있다.

대립유전자-비상호작용 정보는 또한 임상 종양 하위유형(예를 들어, 편평상피 폐암 대 비-편평형)을 포함할 수 있다.

대립유전자-비상호작용 정보에는 흡연 이력도 포함될 수 있다.

대립유전자-비상호작용 정보는 또한 햇볕 화상, 일광 노출 또는 다른 뮤타젠에 노출된 병력을 포함할 수 있다.

대립유전자-비상호작용 정보는 또한 관련 종양 유형 또는 임상 하위유형에서 펩타이드의 공급원 유전자의 통상적인 발현을 포함할 수 있으며, 선택적으로 유발 돌연변이에 의해 계층화될 수 있다. 관련 종양 유형에서 통상 높은 수준으로 발현되는 유전자가 더 많이 나타난다.

대립유전자-비상호작용 정보는 모든 종양, 또는 동일한 유형의 종양, 또는 적어도 하나의 공유된 MHC 대립유전자를 가진 개체의 종양, 또는 적어도 하나의 공유된 MHC 대립유전자가 있는 개체의 동일한 유형의 종양에서 돌연변이의 빈도를 포함할 수 있다.

돌연변이된 종양-특이적 펩타이드의 경우, 제시 확률을 예측하는데 사용되는 특징의 목록에는 돌연변이의 주석(예를 들어, 미스센스, 연속 판독, 격자 이동, 융합 등) 또는 논센스-매개된 붕괴(NMD)를 초래할 것을 돌연변이가 예측하는지 여부가 포함된다. 예를 들어, 동종접합성 조기-중지 돌연변이로 인해 종양 세포에서 번역되지 않는 단백질 세그먼트로부터의 펩타이드는 0의 제시 확률을 배정받을 수 있다. NMD는 mRNA 번역의 감소를 초래하며, 이는 제시 확률을 감소시킨다.

VⅡ.C. 제시 동정 시스템

도 3은 일 구현예에 따른, 제시 동정 시스템(160)의 컴퓨터 로직 구성 요소를 나타내는 고-수준 블록선도이다. 이 예시적인 구현예에서, 제시 동정 시스템(160)은 데이터 관리 모듈(312), 인코딩 모듈(314), 훈련 모듈(316) 및 예측 모듈(320)을 포함한다. 제시 동정 시스템(160)은 또한 훈련 데이터 스토어(170) 및 제시 모델 스토어(175)로 구성된다. 모델 관리 시스템(160)의 일부 구현예는 본 명세서에 기재된 것과 상이한 모듈을 갖는다. 유사하게, 함수는 본원에 설명된 것과 상이한 방식으로 모듈간에 분포될 수 있다.

VⅡ.C.1. 데이터 관리 모듈

데이터 관리 모듈(312)은 제시 정보(165)로부터 훈련 데이터 세트(170)를 생성한다. 각각의 훈련 데이터 세트는 적어도 제시된 또는 제시되지 않은 펩타이드 서열 p ⁱ , 펩타이드 서열 p ⁱ 과 관련된 하나 이상의 관련된 MHC 대립유전자 a ⁱ , 및 제시 동정 시스템(160)이 독립적인 변수의 신규한 값을 예측하는데 관심이 있다는 정보를 나타내는 의존적 변수 y ⁱ 를 포함하는 독립적인 변수 z ⁱ 의 세트를 각각의 데이터 사례 i가 포함하는 복수의 데이터 사례를 포함한다.

본 명세서의 나머지에 걸쳐 언급된 특정한 일 구현예에서, 의존적 변수 y ⁱ 는 펩타이드 p ⁱ 가 하나 이상의 관련된 MHC 대립유전자 a ⁱ 에 의해 제시되었는지 여부를 나타내는 이원 라벨이다. 그러나, 다른 구현들에서, 의존적 변수 y ⁱ 는 제시 동정 시스템(160)이 독립적인 변수 z ⁱ 에 의존하여 예측하는데 관심이 있다는 임의의 다른 종류의 정보를 나타낼 수 있다. 예를 들어, 다른 구현예에서, 의존적 변수 y ⁱ 는 데이터 사례에 대해 동정된 질량 분광분석법 이온 전류를 나타내는 수치일 수도 있다.

데이터 사례 i에 대한 펩타이드 서열 p ⁱ 는 k _i 아미노산의 서열이며, 상기 k _i 는 범위 내의 데이터 사례들 i 간에 다를 수 있다. 예를 들어, 그 범위는 MHC 부류 I의 경우 8-15, MHC 부류 Ⅱ의 경우 6-30일 수 있다. 시스템(160)의 특정한 일 구현예에서, 훈련 데이터 세트 내의 모든 펩타이드 서열 p ⁱ 동일한 길이, 예를 들어, 9를 가질 수 있다. 펩타이드 서열 내의 아미노산의 수는 MHC 대립유전자의 유형(예를 들어, 인간의 MHC 대립유전자 등)에 따라 다를 수 있다. 데이터 사례 i에 대한 MHC 대립유전자 a ⁱ 는 상응하는 펩타이드 서열 p ⁱ 과 관련하여 어떤 MHC 대립유전자가 존재하는지를 나타낸다.

데이터 관리 모듈(312)은 또한, 훈련 데이터(170) 내에 함유된 펩타이드 서열 p ⁱ 및 관련 MHC 대립유전자 a ⁱ 와 접합하여, 결합 친화성 b ⁱ 및 안정성 s ⁱ 와 같은 추가의 대립유전자-상호작용 변수를 포함할 수 있다. 예를 들어, 훈련 데이터(170)는 펩타이드 p ⁱ 와, a ⁱ 로 표시되는 각각의 관련된 MHC 분자 사이에 결합 친화성 예측 b ⁱ 를 함유할 수 있다. 다른 예로서, 훈련 데이터(170)는 a ⁱ 에 표시된 MHC 대립유전자 각각에 대한 안정성 예측 s ⁱ 를 함유할 수 있다.

데이터 관리 모듈(312)은 또한 펩타이드 서열 p ⁱ 와 접합하여 C-말단 측접 서열 및 mRNA 정량화 측정과 같은 대립유전자-비상호작용 변수 w ⁱ 를 포함할 수 있다.

데이터 관리 모듈(312)은 또한 훈련 데이터(170)를 생성하기 위해 MHC 대립유전자에 의해 제시되지 않는 펩타이드 서열을 동정한다. 일반적으로, 이것은 제시되기 전에 제시된 펩타이드 서열을 포함하는 "더 긴" 원천 단백질 서열을 동정하는 것을 포함한다. 제시 정보가 조작된 세포주를 함유할 때, 데이터 관리 모듈(312)은 세포의 MHC 대립유전자 상에 제시되지 않은 것에 세포가 노출된 합성 단백질 내의 일련의 펩타이드 서열 세트를 동정한다. 제시 정보가 조직 샘플을 함유할 때, 데이터 관리 모듈(312)은 제시된 펩타이드 서열이 조직 샘플 세포의 MHC 대립유전자 상에 존재하지 않는 원천 단백질에서 유래된 원천 단백질을 동정하고, 상기 원천 단백질내 펩타이드 서열 세트를 동정한다.

데이터 관리 모듈(312)은 또한 아미노산의 랜덤 서열을 갖는 펩타이드를 인공적으로 생성할 수 있고, MHC 대립유전자 상에 제시되지 않은 펩타이드로서 생성된 서열을 동정할 수 있다. 이것은 펩타이드 서열을 무작위로 생성함으로써 달성될 수 있으며, 데이터 관리 모듈(312)은 MHC 대립유전자 상에 제시되지 않은 펩타이드에 대한 많은 양의 합성 데이터를 용이하게 생성할 수 있게 한다. 실제로, 작은 백분율의 펩타이드 서열이 MHC 대립유전자에 의해 제시되기 때문에, 합성적으로 생성된 펩타이드 서열은 세포에 의해 가공된 단백질내에 포함되더라도, MHC 대립유전자에 의해 제시되지 않았을 가능성이 매우 높다.

도 4는 일 구현예에 따른 훈련 데이터(170A)의 예시적인 세트를 도시한다. 구체적으로, 훈련 데이터(170A)의 제1 3개의 데이터 사례는 대립유전자 HLA-C*01:03 및 3개의 펩타이드 서열 QCEIOWAREFLKEIGJ, FIEUHFWI, 및 FEWRHRJTRUJR을 포함하는 단일-대립유전자 세포주로부터의 펩타이드 제시 정보를 나타낸다. 훈련 데이터(170A) 내의 제4 데이터 사례는 대립유전자 HLA-B*07:02, HLA-C*01:03, HLA-A*01:01 및 펩타이드 서열 QIEJOEIJE를 포함하는 다중-대립유전자 세포주로부터의 펩타이드 정보를 나타낸다. 제1 데이터 사례는 펩타이드 서열 QCEIOWARE가 대립유전자 HLA-DRB3:01:01에 의해 제시되지 않았음을 나타낸다. 이전 두 단락에서 논의된 바와 같이, 음으로 표지된 펩타이드 서열은 데이터 관리 모듈(312)에 의해 무작위로 생성되거나, 제시된 펩타이드의 원천 단백질로부터 동정될 수 있다. 훈련 데이터(170A)는 또한 1000nM의 결합 친화성 예측 및 펩타이드 서열-대립유전자 쌍에 대한 1시간 반감기의 안정성 예측을 포함한다. 훈련 데이터(170A)는 또한 대립유전자-비상호작용 변수, 예컨대 펩타이드 FJELFISBOSJFIE의 C-말단 측접 서열 및 10² TPM의 mRNA 정량화 측정을 포함한다. 제4 데이터 사례는 펩타이드 서열 QIEJOEIJE가 대립유전자 HLA-B*07:02, HLA-C*01:03, 또는 HLA-A*01:01 중 하나에 의해 제시되었음을 나타낸다. 훈련 데이터(170A)는 또한 펩타이드의 C-말단 측접 서열 및 펩타이드에 대한 mRNA 정량화 측정뿐만 아니라 대립유전자 각각에 대한 결합 친화성 예측 및 안정성 예측을 포함한다.

VⅡ.C.2. 인코딩 모듈

인코딩 모듈(314)은 훈련 데이터(170)에 함유된 정보를 하나 이상의 제시 모델을 생성하는데 사용될 수 있는 수치 표현으로 인코딩한다. 일 구현예에서, 인코딩 모듈(314)은 미리 결정된 20-문자 아미노산 알파벳에 걸쳐 서열(예를 들어, 펩타이드 서열 또는 C-말단 측접 서열)을 원-핫 인코딩한다. 구체적으로,

아미노산을 갖는 펩타이드 서열

은

개 요소의 행 벡터로서 나타내며, 이 경우 펩타이드 서열의 j-번째 위치의 아미노산의 알파벳에 해당하는

중에서 하나의 요소는 1의 값을 갖는다. 그렇지 않으면 나머지 요소의 값은 0이다. 예를 들어 주어진 알파벳 {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}에 대하여, 데이터 사례 i에 대한 3개 아미노산의 펩타이드 서열 EAF는 60개의 요소 p ⁱ =[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]의 행 벡터로 나타낼 수 있다. C-말단 측접 서열 c ⁱ 는 MHC 대립유전자에 대한 단백질 서열 d _h 및 제시 정보 내의 다른 서열 데이터뿐만 아니라, 상기 기술된 바와 같이 유사하게 코딩될 수 있다.

훈련 데이터(170)가 아미노산의 상이한 길이의 서열을 함유할 때, 인코딩 모듈(314)은 사전 결정된 알파벳을 연장하기 위한 PAD 특성을 추가함으로써 동일한 길이의 벡터로 펩타이드를 추가로 인코딩할 수 있다. 예를 들어, 이는 펩타이드 서열의 길이가 훈련 데이터(170)에서 최대 길이를 갖는 펩타이드 서열에 도달할 때까지 PAD 특성을 갖는 펩타이드 서열을 좌측 패딩함으로써 수행될 수 있다. 따라서, 최대 길이를 갖는 펩타이드 서열이 k _max 아미노산을 가질 때, 인코딩 모듈(314)은 각 서열을(20+1)·k _max 요소의 행 벡터로 수치로 나타낸다. 예를 들어, 확장된 알파벳 {PAD, A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y} 및 최대 아미노산 길이가 k _max =5인 경우, 3개의 아미노산의 동일한 예시적인 펩타이드 서열 EAF는 105개 요소 p ⁱ =[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]의 행 벡터로 나타낼 수 있다. C-말단 측접 서열 c ⁱ 또는 다른 서열 데이터는 상기 기술한 바와 유사하게 인코딩될 수 있다. 따라서, 펩타이드 서열 p ⁱ 또는 c ⁱ 내의 각각의 독립적인 가변성 또는 칼럼은 서열의 특정 위치에서의 특정한 아미노산의 존재를 나타낸다.

서열 데이터를 인코딩하는 상기 방법은 아미노산 서열을 갖는 서열을 참조하여 기술되었지만, 상기 방법은 DNA 또는 RNA 서열 데이타 등과 같은 다른 유형의 서열 데이타로 유사하게 연장될 수 있다.

또한, 인코딩 모듈(314)은 m 요소의 행 벡터로서 데이터 사례 i에 대한 하나 이상의 MHC 대립유전자 a ⁱ 를 인코딩하며, 각 요소

은 특유의 동정된 MHC 대립유전자에 상응한다. 데이터 사례 i에 대해 동정된 MHC 대립유전자에 해당하는 요소의 값은 1이다. 그렇지 않으면 나머지 요소의 값은 0이다. 예를 들어, m=4 특유의 동정된 MHC 대립유전자 유형 {HLA-A*01:01, HLA-C*01:08, HLA-B*07:02, HLA-DRB1*10:01 } 중 다중-대립유전자 세포주에 해당하는 데이터 사례 i에 대한 대립유전자 HLA-B*07:02 및 HLA-DRB1*10:01은 4 원소의 행 벡터 a ⁱ =[0 0 1 1]로 표현될 수 있으며, a ₃ ⁱ =1 및 a ₄ ⁱ =1이다. 실시예는 4개의 동정된 MHC 대립유전자 유형으로 본원에 기술되었지만, 실제로 MHC 대립유전자 유형의 수는 수백 또는 수천이 될 수 있다. 앞에서 논의한 바와 같이, 각 데이터 사례 i는 통상 펩타이드 서열 p _i 와 관련하여 최대 6개의 상이한 MHC 대립유전자 유형을 함유한다.

또한, 인코딩 모듈(314)은 각각의 데이터 사례 i에 대한 라벨 y _i 를 {0, 1}의 세트로부터의 값을 갖는 2원 변수로서 인코딩하며, 1의 값은 펩타이드 x ⁱ 가 관련된 MHC 대립유전자 a ⁱ 중 하나에 의해 제시되었음을 나타내고, 0의 값은 펩타이드 x ^i가 관련된 MHC 대립유전자 a ⁱ 중 하나에 의해 제시되지 않음을 나타낸다. 의존적 변수 y _i 가 질량 분광분석 이온 전류를 나타낼 때, 인코딩 모듈(314)은 다양한 함수를 사용하여 값을 추가로 스케일링할 수 있는데, 로그 함수는 [0, ∞) 사이의 이온 전류값에 대하여 (-∞, ∞)의 범위를 갖는다.

인코딩 모듈(314)은 펩타이드 p _i 에 대해 한쌍의 대립유전자-상호작용 변수

및, 대립유전자-상호작용 변수의 수치 표현이 교대로 연결된 행 벡터로서 관련된 MHC 대립유전자 h를 나타낼 수 있다. 예를 들어, 인코딩 모듈(314)은

와 균등한 행 벡터로서

를 나타낼 수 있으며, 상기 b _h ⁱ 는 펩타이드 p _i 및 관련된 MHC 대립유전자 h에 대한 결합 친화성, 및 안정성에 대한 s _h ⁱ 에 대한 유사하게 결합 친화성 예측이다. 대안적으로, 대립유전자-상호작용 변수의 하나 이상의 조합은 개별적으로(예를 들어, 개별 벡터 또는 매트릭스로서) 저장될 수 있다.

일 사례에서, 인코딩 모듈(314)은 대립유전자-상호작용 변수 x _h ⁱ 에 결합 친화력에 대한 측정된 또는 예측된 값을 편입시킴으로써 결합 친화성 정보를 나타낸다.

일 사례에서, 인코딩 모듈(314)은 대립유전자 상호작용 변수 x _h ⁱ 에 결합 안정성에 대한 측정된 또는 예측된 값을 편입시킴으로써 결합 안정성 정보를 나타낸다.

일 사례에서, 인코딩 모듈(314)은 대립유전자 상호작용 변수 x _h ⁱ 에 결합 온-레이트에 대한 측정된 또는 예측된 값을 편입시킴으로써 결합 온 레이트 정보를 나타낸다.

일 사례에서, 부류 I MHC 분자에 의해 제시된 펩타이드에 대해, 인코딩 모듈(314)은 펩타이드 길이를 벡터

로서 나타내며, 상기

은 표지 함수이며, 및 L _k 는 펩타이드 p _k 의 길이를 지칭한다. 벡터 T _k 는 대립유전자-상호작용 변수 x _h ⁱ 에 포함될 수 있다. 다른 사례에서, 부류 II MHC 분자에 의해 제시된 펩타이드에 대해, 인코딩 모듈(314)은 펩타이드 길이를 벡터

로서 나타내며, 상기

은 표지 함수이며, 및 L _k 는 펩타이드 p _k 의 길이를 지칭한다. 벡터 T _k 는 대립유전자-상호작용 변수 x _h ⁱ 에 포함될 수 있다.

일 사례에서, 인코딩 모듈(314)은 MHC 대립유전자의 RNA-서열 분석에 기초한 발현 수준을 대립유전자-상호작용 변수 x _h ⁱ 내에 편입시킴으로써 MHC 대립유전자의 RNA 발현 정보를 나타낸다.

유사하게, 인코딩 모듈(314)은 대립유전자-비상호작용 변수의 수치 표현이 교대로 연결된 행 벡터로서 대립유전자-비상호작용 변수 w ⁱ 를 나타낼 수 있다. 예를 들어 w ⁱ 는 [c ⁱ ] 또는 [c ⁱ m ⁱ w ⁱ ]와 동일한 행 벡터일 수 있으며, 상기 w ⁱ 는 펩타이드 p ⁱ 의 C-말단 측접 서열 및 펩타이드와 관련된 mRNA 정량화 측정 m ⁱ 이외에 임의의 다른 대립유전자-비상호작용 변수를 나타내는 행 벡터이다. 대안적으로, 대립유전자-비상호작용 변수의 하나 이상의 조합은 개별적으로(예를 들어, 개별 벡터 또는 매트릭스로서) 저장될 수 있다.

일 사례에서, 인코딩 모듈(314)은 대립유전자-비상호작용 변수 w ⁱ 에 전환율 또는 반감기를 포함시킴으로써 펩타이드 서열에 대한 원천 단백질의 전환율을 나타낸다.

일 사례에서, 인코딩 모듈(314)은 대립유전자-비상호작용 변수 w ⁱ 에 단백질 길이를 포함시킴으로써 원천 단백질 또는 동형체의 길이를 나타낸다.

일 사례에서, 인코딩 모듈(314)은 대립유전자-비상호작용 변수

하위단위를 포함하는 면역프로테아솜-특이적 프로테아솜 하위단위의 평균 발현을 통합함으로써 면역프로테아솜의 활성화를 나타낸다.

일 사례에서, 인코딩 모듈(314)은 펩타이드의 원천 단백질의 RNA-서열 분석 존재도를 나타내거나, 또는 펩타이드의 유전자 또는 전사체 (RSEM과 같은 기술에 의해 FPKM, TPM의 단위로 정량화됨)는 대립유전자-비상호작용 변수 w ⁱ 내 원천 단백질의 존재도를 포함시킬 수 있다.

일 사례에서, 인코딩 모듈(314)은 펩타이드의 기원의 전사체가 예를 들어 하기 문헌의 모델에 의해 추정된 바와 같이 논센스-매개된 붕괴(NMD)를 겪을 확률을 나타낸다: Rivas 등, Science, 2015, 대립유전자-비상호작용 변수 w ⁱ 내 확률을 포함시킨다.

일 사례에서, 인코딩 모듈(314)은 예를 들어 하기를 사용하여, TPM 단위로 경로내 유전자의 발현을 정량화함으로써 RNA-서열 분석을 통해 평가된 유전자 모듈 또는 경로의 활성화 상태를 나타내며, 경로내 각 유전자에 대해 RSEM을 수행한 다음 경로의 유전자 전반에 걸친 요약 통계, 예를 들어, 평균을 계산한다. 평균은 대립유전자-비상호작용 변수 w ⁱ 에 통합될 수 있다.

일 사례에서, 인코딩 모듈(314)은 대립유전자-비상호작용 변수 w ⁱ 에 복제 수를 통합함으로써 공급원 유전자의 복제 수를 나타낸다.

일 사례에서, 인코딩 모듈(314)은 대립유전자-비상호작용 변수 w ⁱ 에서 측정된 또는 예상된 TAP 결합 친화성(예를 들어, 나노몰 단위)를 포함시킴으로써 TAP 결합 친화성을 나타낸다.

일 사례에서, 인코딩 모듈(314)은 하기 변수내 RNA-서열 분석에 의해 측정된(및 예를 들어, 하기) TAP 발현 수준을 포함함으로써 TAP 발현 수준을 나타낸다: 대립유전자-비상호작용 변수 w ⁱ 내에서 (예를 들어, RSEM에 의해 TPM의 단위로 정량화된).

일 사례에서, 인코딩 모듈(314)은 대립유전자-비상호작용 변수 w ⁱ 내 지표 변수의 벡터로서 종양 돌연변이를 나타낸다(즉, 펩타이드 p ^k 가 KRAS G12D 돌연변이가 있는 샘플에서 도출된 경우, d ^k = 1이고, 그렇지 않은 경우에는 0임).

일 사례에서, 인코딩 모듈(314)은 표지 변수의 벡터로서 항원 제시 유전자에서의 생식 계열 다형성을 나타낸다(즉, 펩타이드 p ^k 가 TAP내 특이적 생식 계열 다형성을 가진 샘플에서 도출된 경우, d ^k = 1임). 이들 지표 변수는 대립유전자-비상호작용 변수 w ⁱ 내에 포함될 수 있다.

일 사례에서, 인코딩 모듈(314)은 종양 유형(예를 들어, NSCLC, 흑색종, 결장직장암 등)의 알파벳에 대해 길이-1 원-핫 인코딩된 벡터로서 종양 유형을 나타낸다. 이러한 원-핫-인코딩된 변수는 대립유전자-비상호작용 변수 w ⁱ 에 포함될 수 있다.

일 사례에서, 인코딩 모듈(314)은 상이한 접미사를 갖는 4자리 HLA 대립유전자를 처리함으로써 MHC 대립유전자 접미사를 나타낸다. 예를 들어, HLA-A*24:09N은 모델 목적상 HLA-A*24:09와는 상이한 대립유전자로 간주된다. 대안적으로, N 접미사로 끝나는 HLA 대립유전자가 발현되지 않기 때문에, N-접미어 MHC 대립유전자에 의한 제시 확률은 모든 펩타이드에 대해 0으로 설정될 수 있다.

일 사례에서, 인코딩 모듈(314)은 종양 하위유형(예를 들어, 폐 선암종, 폐 편평상피세포 암종 등)의 알파벳에 대해 길이-1 원-핫 인코딩된 벡터로서 종양 아형을 나타낸다. 이러한 원핫-인코딩된 변수는 대립유전자-비상호작용 변수 w ⁱ 에 포함될 수 있다.

일 사례에서, 인코딩 모듈(314)은 대립유전자-비상호작용 변수 wi에 포함될 수 있는 이원 지표 변수(환자가 흡연 이력이 있는 경우 (d ^k = 1, 그렇지 않은 경우 0)로서 흡연 이력을 나타낸다. 대안적으로, 흡연 이력은 흡연 중증도의 알파벳에 대한 길이-1 원-핫-인코딩된 변수로서 인코딩될 수 있다. 예를 들어, 흡연 상태는 1-5 척도로 평가될 수 있으며, 1은 비 흡연자를 나타내고, 5는 최근의 중증 흡연자를 나타낸다. 흡연 이력은 주로 폐 종양과 관련되어 있기 때문에, 여러 종양 유형에 대한 모델을 훈련할 때 이 변수는 환자가 흡연 이력이 있고 종양 유형이 폐 종양인 경우 1과 동일한 것으로 정의될 수 있으며, 다른 경우 0일 수 있다.

일 사례에서, 인코딩 모듈(314)은 2원 지표 변수로서 햇볕 화상 이력을 나타내며(환자가 중증 햇볕 화상의 이력을 갖는 경우에는 (d ^k = 1이며, 그렇지 않은 경우 0), 이는 대립유전자-비상호작용 변수 w ⁱ 에 포함될 수 있다. 중증 햇볕 화상은 주로 흑색종과 관련이 있기 때문에, 여러 종양 유형의 모델을 훈련할 때 이 변수는 환자가 중증 햇볕 화상의 이력이 있고 종양 유형이 흑색종인 경우 1과 동일한 것으로 정의될 수 있으며, 그렇지 않은 경우 0이다.

일 사례에서, 인코딩 모듈(314)은 참조 데이터베이스, 예컨대 TCGA를 사용하여 발현 수준의 분포의 요약 통계(예를 들어, 평균, 중앙값)로서 인간 게놈 내의 각 유전자 또는 전사체에 대한 특정한 유전자 또는 전사체의 발현 수준의 분포를 나타낸다. 구체적으로, 종양 유형 흑색종을 갖는 샘플내 펩타이드 p ^k 에 대해, 대립유전자-비상호작용 변수 w ⁱ 내 펩타이드 p ^k 의 기원의 유전자 또는 전사체의 측정된 유전자 또는 전사체 발현 수준뿐만 아니라 TCGA로 측정된, 흑색종내 펩타이드 p ^k 의 유전자 또는 전사체의 평균 및/또는 중간 유전자 또는 전사체 발현을 포함할 수 있다.

일 사례에서, 인코딩 모듈(314)은 돌연변이 유형을 돌연변이 유형(예컨대, 미스센스, 격자 이동, NMD-유도 등)의 알파벳에 대한 길이-1 원-핫-인코딩된 변수로서 나타낸다. 이러한 원핫-인코딩된 변수는 대립유전자-비상호작용 변수 w ⁱ 에 포함될 수 있다.

일 사례에서, 인코딩 모듈(314)은 대립유전자-비상호작용 변수 w ⁱ 내 원천 단백질에서 주석의 값으로서 단백질-수준 특징(예를 들어, 5' UTR 길이)을 나타낸다. 또 다른 사례에서, 인코딩 모듈(314)은 지표 변수를 포함시킴으로써 펩타이드 p ⁱ 에 대한 원천 단백질의 잔기-레벨 주석을 나타내며, 이는 펩타이드 p ⁱ 가 나선 모티프와 중첩되는 경우 1이며, 그렇지 않은 경우 0이며, 또는 펩타이드 p ⁱ 가 대립유전자-비상호작용 변수 w ⁱ 내 나선 모티프 내에 완전히 함유되어 있으면 1이다. 다른 사례에서, 나선 모티프 주석 내에 함유된 펩타이드 p ⁱ 내의 잔기의 비율을 나타내는 특징은 대립유전자-비상호작용 변수 w ⁱ 이다.

일 사례에서, 인코딩 모듈(314)은 길이가 인간 단백체내 단백질 또는 동형체의 수와 동일한 길이를 갖는 지표 벡터 o ^k 로서 인간 단백체내 단백질 또는 동형체의 유형을 나타내며, 펩타이드 p ^k 가 단백질 i로부터 유래된다면 상응하는 요소 o ^k _i 는 1이며, 그렇지 않으면 0이다.

일 사례에서, 인코딩 모듈(314)은 L 가능한 카테고리를 갖는 범주 변수로서 펩타이드 p ⁱ 의 공급원 유전자 G=gene(p ⁱ )를 나타내며, 여기서 L은 인덱싱된 공급원 유전자 1, 2, ..., L의 수의 상한을 나타낸다.

일 예에서, 인코딩 모듈(314)은 M개의 가능한 카테고리를 갖는 범주 변수로서 펩타이드 pi의 조직 유형, 세포 유형, 종양 유형 또는 종양 조직학 유형 T=조직 (pⁱ)을 타내며, 여기서 M은 인덱싱된 유형 1, 2,…, M의 수의 상한을 나타낸다. 조직 유형은 예를 들어 폐 조직, 심장 조직, 장 조직, 신경 조직 등을 포함할 수 있다. 세포의 유형은 수지상 세포, 대식세포, CD4 T 세포 등을 포함할 수 있다. 종양의 유형은 폐 선암종, 폐 편평 세포 암종, 흑색 종, 비호지킨 림프종 등을 포함할 수 있다.

또한, 인코딩 모듈(314)은 대립유전자-상호작용 변수 x ⁱ 및 대립유전자-비상호작용 변수 w ⁱ 의 수치 표현이 교대로 연결된 행 벡터로서 펩타이드

및 관련된 MHC 대립유전자 h에 대한 변수들

의 전반적인 세트를 나타낼 수 있다. 예를 들어, 인코딩 모듈(314)은

또는

와 동일한 행 벡터로서

를 나타낼 수 있다.

Ⅷ. 훈련 모듈

훈련 모듈(316)은 펩타이드 서열이 펩타이드 서열과 관련된 MHC 대립유전자에 의해 제시될 것인지 여부의 가능성을 생성하는 하나 이상의 제시 모델을 구성한다. 구체적으로, 펩타이드 서열 p ^k 및 펩타이드 서열 p ^k 와 관련된 MHC 대립유전자

의 세트가 주어진 경우, 각 제시 모델은 펩타이드 서열 p ^k 가 관련된 MHC 대립유전자 a ^k 중 하나 이상에 의해 제시될 가능성을 나타내는 추정치를 생성한다.

Ⅷ.A. 개요

훈련 모듈(316)은 (165)에 저장된 제시 정보로부터 생성된 스토어(170)에 저장된 훈련 데이터 세트에 기초하여 하나 이상의 제시 모델을 구성한다. 일반적으로, 특정한 유형의 제시 모델에 관계없이, 모든 제시 모델은 손실 함수가 최소화되도록 훈련 데이터(170)에서 독립 변수와 종속 변수 사이의 의존성을 포착한다. 구체적으로, 손실 함수

는 연습 데이터 (170)에서의 하나 이상의 데이터 예 S 및 제시 모델에 의해 생성되는 데이터 예 S에 대해서 추정된 가능치에 대하여 독립적인 변수들 y _i∈S 의 수치들 간의 불일치를 나타낸다. 본 명세서의 나머지 부분에서 언급된 특정한 구현예에서, 손실 함수

는 하기와 같이 수학식 (1a)에 의해 주어진 음의 로그 가능성 함수이다:

그러나 실제로는 다른 손실 함수가 사용될 수 있다. 예를 들어, 질량 분광분석법 이온 전류에 대한 예측이 이루어질 때, 손실 함수는 하기와 같이 수학식 1b에 의해 주어진 제곱평균 손실이다:

제시 모델은 하나 이상의 파라미터 θ가 독립 변수와 종속 변수 사이의 의존성을 수학적으로 지정하는 파라미터 모델일 수 있다. 통상 손실 함수

는 배치 구배 알고리즘, 확률적 구배 알고리즘 등과 같은 구배-기반 수치 최적화 알고리즘을 통해 결정된다. 대안적으로, 제시 모델은 모델 구조가 훈련 데이터(170)로부터 결정되고 고정된 파라미터 세트에 엄격하게 기초하지 않는 비-파라미터 모델일 수 있다.

Ⅷ.B. 과-대립유전자 모델

훈련 모듈(316)은 과-대립유전자 기준으로 펩타이드의 제시 가능성을 예측하기 위해 제시 모델을 구성할 수 있다. 이 경우에, 훈련 모듈(316)은 단일 MHC 대립유전자를 발현하는 세포로부터 생성된 훈련 데이터(170) 내의 데이터 사례들에 기초하여 제시 모델들을 훈련할 수 있다.

일 구현예에서, 훈련 모듈(316)은 하기 식에 의해 특이적인 대립유전자 h에 대하여 펩타이드 p ^k 에 대한 추정된 제시 가능성 u _k 을 모델링한다:

여기서 펩타이드 서열 x _h ^k 은 펩타이드 p ^k 에 대해 인코딩된 대립유전자-상호작용 변수를 지칭하며, 대응하는 MHC 대립유전자 h,f(·)는 임의의 함수이며, 본원에서 설명의 편의를 위해 변형 함수로 지칭된다. 또한, g _h(·) 는 임의의 함수이며, 설명의 편의를 위해 의존성 함수로 지칭되며, MHC 대립유전자 h에 대해 결정된 파라미터

에 기반하여 대립유전자-상호작용 변수

를 위한 의존성 스코어를 생성한다. 각 MHC 대립유전자 h에 대한 파라미터

의 세트의 값은

와 관련된 손실 함수를 최소화시킴으로써 결정될 수 있으며, 여기서, i는 단일 MHC 대립유전자 h를 발현하는 세포들로부터 생성된 훈련 데이터(170)의 서브셋 S 내의 각 사례이다.

의존성 함수

결과는 적어도 대립유전자 상호작용 특징

를 기반으로 한, 그리고 특히 펩타이드 p ^k 의 펩타이드 서열의 아미노산의 위치를 기반으로 한, 상응하는 신생항원에 MHC 대립유전자 h가 존재하는지 여부를 나타내는 MHC 대립유전자 h에 대한 의존성 스코어를 나타낸다. 예를 들어, MHC 대립유전자 h에 대한 의존성 스코어는 MHC 대립유전자 h가 펩타이드 p ^k 에 존재할 가능성이 있는 경우 높은 값을 가질 수 있고, 제시가 어려울 경우 낮은 값을 가질 수 있다. 변환 함수 f(·)는 입력을 변환시키며, 보다 구체적으로 이 경우

에 의해 생성된 의존성 스코어를 MHC 대립유전자에 의해 펩타이드 p ^k 가 제시될 가능성을 나타내는 적당한 값으로 변환시킨다.

본 명세서의 나머지 전체에 걸쳐 언급되는 특정한 일 구현예에서, f(·)는 적절한 도메인 범위에서 [0, 1]의 범위를 갖는 함수이다. 일 예에서, f(·)는 다음에 의해 주어진 expit 함수이다:

또 다른 예로, f(·)는 도메인 z에 대한 값이 0 이상일 때 하기의 수식 (5)에 의해 주어진 쌍곡선 탄젠트 함수가 될 수 있다:

.

대안적으로, [0, 1] 범위를 벗어나는 값을 갖는 질량 분광분석법 이온 전류에 대한 예측이 이루어지면 f(·)는 항등 함수, 지수 함수, 로그 함수 등과 같은 임의의 함수일 수 있다.

따라서 펩타이드 서열 p ^k 가 MHC 대립유전자 h에 의해 제시될 수 있는 과-대립유전자 가능성은 MHC 대립유전자 h에 대한 의존성 함수 g _h (·)를 펩타이드 서열 p ^k 의 인코딩 버전에 적용시켜 상응하는 의존성 스코어를 생성함으로써 생성될 수 있다. 의존성 스코어는 펩타이드 서열 p ^k 가 MHC 대립유전자 h에 의해 제시될 과-대립유전자 가능성을 생성하기 위해 변환 함수 f(·)에 의해 변환될 수 있다.

Ⅷ.B.1 대립유전자 상호작용 변수를 위한 의존성 함수

본 명세서 전반에 걸쳐 언급된 특정한 일 구현예에서, 의존성 함수 g _h (·) 는 다음에 의해 주어진 아핀(affine) 함수이다:

이는 관련 MHC 대립유전자 h에 대해 결정된 파라미터

의 세트내 상응하는 파라미터와 각 대립유전자 상호작용 변수

를 선형적으로 결합한다.

본 명세서 전반에 걸쳐 언급된 또 다른 특정한 구현예에서, 의존성 함수 g _h (·)는 하기에 의해 주어진 네트워크 함수이다:

이는 하나 이상의 층에 일련의 노드가 배열된 네트워크 모델 NN _h (·)로 표현된다. 노드는 파라미터

의 세트에서 관련된 파라미터를 각각 갖는 연결을 통해 다른 노드에 연결될 수 있다. 하나의 특정한 노드에서의 값은 특정한 노드와 관련된 활성화 함수에 의해 맵핑된 관련된 파라미터에 의해 계량된 특정한 노드에 연결된 노드들의 값들의 합으로서 표시될 수 있다. 아핀 함수와는 대조적으로, 제시 모델은 서로 상이한 길이의 아미노산 서열을 갖는 비-선형성 및 프로세스 데이터를 통합할 수 있기 때문에 네트워크 모델이 유리하다. 구체적으로, 비-선형 모델링을 통해 네트워크 모델은 펩타이드 서열의 상이한 위치에 있는 아미노산 사이의 상호작용과 이 상호작용이 펩타이드 제시에 미치는 영향을 포착할 수 있다.

일반적으로 네트워크 NN _h (·)은 피드-포워드 네트워크, 예컨대 인공 신경 네트워크(ANN), 콘볼루션 신경망(CNN), 딥 신경망(DNN) 및/또는 재발성 네트워크, 예컨대 긴 단기간 메모리 네트워크(LSTM), 양방향 재발성 네트워크, 딥 양방향 재발성 네트워크 등으로서 구조화될 수 있다.

본 명세서의 나머지 부분에서 언급된 일 사례에서, h=1, 2,... m 의 각각의 MHC 대립유전자는 개별적인 네트워크 모델과 관련되며, NN _h (·)는 MHC 대립유전자 h와 관련된 네트워크 모델의 결과물을 나타낸다.

도 5는 임의의 MHC 대립유전자 h=3과 관련한 예시적인 네트워크 모델 NN ₃ (·)을 나타낸다. 도 5에 도시된 바와 같이, MHC 대립유전자 h=3에 대한 네트워크 모델 NN ₃ (·)은 층 l=1에서 3개의 입력 노드, 층 l=2에서 4개의 노드, 층 l=3, 에서 2개의 노드, 층 l=4에서 1개의 출력 노드를 포함한다. 네트워크 모델 NN ₃ (·)은 10개의 파라미터

의 세트와 관련된다. 네트워크 모델 NN ₃ (·)은 MHC 대립유전자 h=3에 대한 3개의 대립유전자-상호작용 변수

및

에 대한 입력 값(인코딩된 폴리펩타이드 서열 데이터 및 사용된 임의의 다른 훈련 데이터를 포함하는 개별 데이터 사례)을 수신하며, 및 값 NN ₃ (x ₃ ^k )을 산출한다. 네트워크 함수는 또한 상이한 대립유전자 상호작용 변수를 입력으로서 각각 사용하는 하나 이상의 네트워크 모델을 포함할 수 있다.

다른 사례에서, 동정된 MHC 대립유전자 h=1, 2, ... m은 단일 네트워크 모델 NN _H(·) 과 관련되어 있으며, NN _h (·)는 MHC 대립유전자 h와 관련된 단일 네트워크 모델의 하나 이상의 결과를 지칭한다. 이러한 사례에서,

의 세트는 단일 네트워크 모델에 대한 파라미터 세트에 대응할 수 있으며, 따라서, 파라미터

의 세트는 모든 MHC 대립유전자에 의해 공유될 수 있다.

도 6a는 MHC 대립유전자 h=1, 2, ... m에 의해 공유되는 예시적인 네트워크 모델 NN _H (·)를 나타낸다. 도 6a에 도시된 바와 같이, 네트워크 모델 NN _H (·)은 MHC 대립유전자에 각각 상응하는 m 출력 노드를 포함한다. 네트워크 모델 NN ₃ (·)은 MHC 대립유전자 h=3에 대한 대립유전자-상호작용 변수

를 수신하며, MHC 대립유전자 h=3에 대응하는 값

을 포함하는 m값을 산출한다.

또 다른 예로, 단일 네트워크 모델

은 MHC 대립유전자 h의 대립유전자 상호작용 변수

인코딩된 단백질 서열

이 주어진 의존성 스코어를 출력하는 네트워크 모델일 수 있다. 이러한 경우, 파라미터

의 세트는 단일 네트워크 모델에 대한 파라미터 세트에 다시 대응할 수 있으므로, 파라미터

의 세트는 모든 MHC 대립유전자에 의해 공유될 수 있다. 따라서, 이러한 경우에

는 단일 네트워크 모델에 입력

이 주어진 단일 네트워크 모델

의 출력을 지칭할 수 있다. 이러한 네트워크 모델은 훈련 데이터에서 알려지지 않은 MHC 대립유전자에 대한 펩타이드 제시 확률이 단백질 서열의 식별에 의해서만 예측될 수 있기 때문에 유리하다.

도 6b는 MHC 대립유전자에 의해 공유되는 예시적인 네트워크 모델 NN _H (·)을 도시한다. 도 6b에 도시된 바와 같이, 네트워크 모델 NN _H (·)은 MHC 대립유전자 h=3 의 대립유전자 상호작용 변수 및 단백질 서열을 입력으로서 수신하며, MHC 대립유전자 h=3에 상응하는 의존성 스코어

를 출력한다.

또 다른 예에서 의존성 함수 g _h (·)는 다음과 같이 표현할 수 있다:

여기서

는 파라미터

의 세트를 갖는 아핀 함수, 네트워크 함수 등이며, MHC 대립유전자에 대한 대립유전자 상호작용 변수에 대한 파라미터 세트에서 바이어스 파라미터

는 MHC 대립유전자 h에 대한 제시의 기본 확률을 나타낸다.

또 다른 구현예에서, 바이어스 파라미터

은 MHC 대립유전자 h의 유전자 계열에 따라 공유될 수 있다. 즉, MHC 대립유전자 h에 대한 바이어스 파라미터

는

와 동일할 수 있으며, gene(h)는 MHC 대립유전자 h의 유전자 계열이다. 예를 들어, 부류 I MHC 대립유전자 HLA-A*02:01, HLA-A*02:02 및 HLA-A*02:03은 "HLA-A"의 유전자 계열에 할당될 수 있으며, 이들 MHC 대립유전자 각각에 대한 바이어스 파라미터

은 공유될 수 있다. 다른 예에서, MHC 대립유전자 HLA-DRB1:10:01, HLA-DRB1:11:01, 및 HLA-DRB3:01:01은 "HLA-DRB"의 유전자 패밀리에 할당될 수 있고 이들 MHC 대립유전자 각각에 대한 바이어스 파라미터

는 공유될 수 있다.

식 (2)로 되돌아 가면, 예로서, 아핀 의존성 함수 g _h (·)를 사용하여 m=4 상이한 동정된 MHC 대립유전자들 중에서, 펩타이드 p ^k 가 MHC 대립유전자 h=3에 의해 제시될 가능성은 하기에 의해 생성될 수 있다:

여기서 x ₃ ^k 는 MHC 대립유전자 h=3에 대해 동정된 대립유전자-상호작용 변수이며, θ ₃ 은 손실 함수 최소화를 통해 MHC 대립유전자 h=3에 대해 결정된 파라미터의 세트이다.

다른 예로서, 별개의 네트워크 전환 함수 g _h (·)를 사용하여 m=4 상이한 동정된 MHC 대립유전자들 중에서, 펩타이드 p ^k 가 MHC 대립유전자 h=3에 의해 제시될 가능성은 하기에 의해 생성될 수 있다:

여기서 x ₃ ^k 는 MHC 대립유전자 h=3, 에 대해 동정된 대립유전자-상호작용 변수이며,

은 MHC 대립유전자 h=3과 관련된 네트워크 모델

에 대해 결정된 파라미터의 세트이다.

도 7은 예시적인 네트워크 모델 NN ₃ (·)을 사용하여 MHC 대립유전자 h=3과 관련하여 펩타이드 p ^k 에 대한 제시 가능성을 생성하는 것을 도시한다. 도 7에 도시된 바와 같이, 네트워크 모델 NN ₃ (·)은 MHC 대립유전자 h=3에 대한 대립유전자-상호작용 변수

를 수신하며, 출력 NN ₃ ( x ₃ ^k )를 생성한다. 출력은 함수 f(·)에 의해 맵핑되어 추정된 제시 가능성 u _k 를 생성한다.

Ⅷ.B.2. 대립유전자-비상호작용 변수가 있는 과-대립유전자

일 구현예에서, 훈련 모듈(316)은 대립유전자-비상호작용 변수들을 통합하고, 하기에 의해 펩타이드 p ^k 에 대한 추정된 제시 가능성 u _k 를 모델링한다:

여기서, w ^k 는 펩타이드 p ^k 에 대한 인코딩된 대립유전자-비상호작용 변수를 지칭하며, g _w (·)는 대립유전자-비상호작용 변수에 대해 결정된 파라미터

의 세트를 기반으로 한 대립유전자-비상호작용 변수

에 대한 함수이다. 구체적으로, 각 MHC 대립유전자 h에 대한 파라미터

의 세트 및 대립유전자- 비상호작용 변수에 대한 파라미터

의 세트에 대한 값은

및

에 관하여 손실 함수를 최소화함으로써 결정될 수 있으며, i는 단일 MHC 대립유전자를 발현하는 세포로부터 생성된 훈련 데이터(170)의 서브셋 S 각 경우이다.

의존성 함수

의 출력은 펩타이드 p ^k 가 대립유전자 비상호작용 변수의 영향에 근거한 하나 이상의 MHC 대립유전자에 의해 제시되는지 여부를 나타내는 대립유전자 비상호작용 변수에 대한 의존성 스코어를 나타낸다. 예를 들어, 펩타이드 p ^k 가 펩타이드 p ^k 의 제시에 긍정적으로 영향을 미치는 것으로 알려진 C-말단 측접 서열과 관련되어 있다면, 대립유전자 비상호작용 변수에 대한 의존성 스코어는 높은 값을 가질 수 있으며, 펩타이드 p ^k 가 펩타이드 p ^k 의 제시에 부정적으로 영향을 미치는 것으로 알려져 있는 C-말단 측접 서열과 관련되어 있다면, 낮은 값을 가질 수 있다.

수식 (8)에 따르면, 펩타이드 서열 p ^k 가 MHC 대립유전자 h에 의해 제시될 과-대립유전자 가능성은 대립유전자 상호작용 변수에 대한 상응하는 의존성 스코어를 생성하기 위해 MHC 대립유전자 h에 대한 함수 g _h (·) 펩타이드 서열 p ^k 의 인코딩 버전에 적용함으로써 생성될 수 있다. 대립유전자-비상호작용 변수에 대한 g _w (·) 함수는 대립유전자-비상호작용 변수의 인코딩 버전에도 적용되어 대립유전자 비상호작용 변수의 의존성 스코어를 생성한다. 두 스코어를 조합하고, 조합된 점수는 전환 함수 f(·)에 의해 변환되어 펩타이드 서열 p ^k 이 MHC 대립유전자 h에 의해 제시될 과-대립유전자 가능성을 생성할 것이다.

대안적으로, 훈련 모듈(316)은 대립유전자-비상호작용 변수

를 수식 (2)의 대립유전자-상호작용 변수

에 가산함으로써 예측내 대립유전자-비상호작용 변수

를 포함할 수 있다. 따라서 제시 가능성은 하기에 의해 주어질 수 있다:

Ⅷ.B.3 대립유전자-비상호작용 변수에 대한 의존성 함수

대립유전자 상호작용 변수에 대한 의존성 함수 g _h (·)와 유사하게, 대립유전자 비상호작용 변수에 대한 의존성 함수 g _w (·)는 별도의 네트워크 모델이 대립유전자-비상호작용 변수 w ^k 와 관련된 아핀 함수 또는 네트워크 함수일 수 있다.

특히 의존성 함수 g _w (·)는 다음에 의해 주어진 아핀 함수이며:

이는 w ^k 의 대립유전자가-비상호작용 변수를 파라미터

의 세트내 해당 파라미터와 선형적으로 조합한다.

의존성 함수 g _w (·)는 다음에 의해 주어진 네트워크 함수일 수도 있으며:

파라미터

의 세트에 관련된 파라미터가 있는 네트워크 모델

에 의해 나타내어진다. 네트워크 함수는 또한 상이한 대립유전자 비상호작용 변수를 입력으로서 각각 사용하는 하나 이상의 네트워크 모델일 수 있다.

또 다른 예로, 대립유전자-비상호작용 변수에 대한 의존성 함수 g _w (·)는 하기에 의해 주어질 수 있으며:

여기서,

는 아핀 함수, 대립유전자-비상호작용 파라미터

의 세트를 갖는 네트워크 함수 등이며, m ^k 는 펩타이드 p ^k 에 대한 mRNA 정량화 측정법이며, h(·)는 정량화 측정법을 전환시키는 함수이며,

은 mRNA와 조합된 대립유전자 비상호작용 변수에 대한 파라미터의 세트내 파라미터이며, mRNA 정량화 측정을 위한 의존성 스코어를 생성시킨다. 본 명세서의 나머지에 전반적으로 언급된 특별한 일 구현예에서, h(·)는 로그 함수이지만, 실제로 h(·)는 다양한 상이한 함수들 중 임의의 하나일 수 있다.

또 다른 사례에서, 대립유전자-비상호작용 변수에 대한 의존성 함수 g _w (·)는 하기에 의해 주어질 수 있다:

여기서,

는 아핀 함수, 대립유전자 비상호작용 파라미터

의 세트를 갖는 네트워크 함수 등이며,

는 펩타이드 p ^k 에 대한 인간 단백체에서 단백질과 이성체를 나타내는 섹션 VII.C.2에 기술된 지표 벡터이며,

는 지표 벡터와 조합된 대립유전자 비상호작용 변수의 세트내 파라미터의 세트이다. 일 변형예에서, o ^k 의 치수 및 파라미터 세트

가 매우 높으면, 파라미터 정규화 용어, 예컨대

는 파라미터의 값을 결정할 때, 손실 함수에 부가될 수 있으며, 여기서

는 L1 표준(norm), L2 표준, 조합 등을 나타낸다. 하이퍼파라미터 λ의 최적 값은 적절한 방법을 통해 결정될 수 있다.

또 다른 예에서, 대립유전자-비상호작용 변수에 대한 의존성 함수 g _w (·)는 하기에 의해 주어질 수 있다:

여기서,

는 아핀 함수 대립유전자 비상호작용 파라미터

의 세트를 가지는 네트워크 함수 등이며,

(유전자(p ^k =1)은 대립유전자 비상호작용 변수와 관련하여 상기 기술된 바와 같이 펩타이드 p ^k 가 공급원 유전자 l로부터 유래된 경우 1과 동일한 표지 함수이고,

은 공급원 유전자 l의 "항원성"을 나타내는 파라미터이다. 일 변형예에서, L이 매우 높고, 따라서 복수의 파라미터

가 매우 높으면, 파라미터 정규화 용어, 예컨대

는 L1 표준, L2 표준, 조합 등을 나타낸다. 하이퍼파라미터 λ의 최적 값은 적절한 방법을 통해 결정될 수 있다.

또 다른 예에서, 대립유전자-비상호작용 변수에 대한 의존성 함수

는 하기로 주어질 수 있다:

여기서

는 아핀 함수, 대립유전자 비상호작용 파라미터

의 세트를 갖는 네트워크 함수 등이고,

은 대립유전자 비상호작용 변수와 관련하여 상기 기재된 바와 같이 펩타이드

가 공급원 유전자 l로부터 유래된 경우 및 펩타이드

가 조직 유형 m으로부터 유래된 경우 1과 동일한 지시 함수이고,

은 공급원 유전자 l 및 조직 유형 m의 조합의 항원성을 나타내는 파라미터이다. 구체적으로, 조직 유형 m에 대한 유전자 l의 항원성은 RNA 발현 및 펩타이드 서열 맥락을 제어한 후 유전자 l로부터 펩타이드를 제시하기 위해 조직 유형 m의 세포에 대한 잔류 경향을 나타낼 수 있다.

일 변형예에서, L 또는 M이 유의하게 높고, 따라서 파라미터

의 수가 유의하게 높은 경우, 파라미터 정규화 항, 예컨대

는 파라미터의 값을 결정할 때 손실 함수에 부가될 수 있으며, 여기서 ||·||는 L1 표준, L2 표준, 조합 등을 나타낸다. 하이퍼파라미터 λ의 최적 값은 적절한 방법을 통해 결정될 수 있다. 또 다른 변형예에서, 파라미터 정규화 항은 파라미터의 값을 결정할 때 손실 함수에 부가될 수 있어서, 동일한 공급원 유전자에 대한 파라미터가 조직 유형 사이에 유의하게 상이하지 않도록 한다. 예를 들어, 다음과 같은 벌칙 항은 손실 함수에서 상이한 조직 유형에 걸친 항원성의 표준 편차에 벌칙을 적용할 수 있으며:

여기서

는 공급원 유전자 l에 대한 조직 유형에 걸친 평균 항원성이다.

또 다른 예에서, 대립유전자-비상호작용 변수에 대한 의존 함수

는 다음과 같이 주어질 수 있다:

여기서

는 아핀 함수, 대립유전자 비상호작용 파라미터 세트

등을 갖는 네트워크 함수이고,

은 펩타이드 p ^k 가 대립유전자 비상호작용 변수와 관련하여 상기 기재된 바와 같이 공급원 유전자 l로부터 유래되는 경우 1과 동일한 지시 함수이고,

이 공급원 유전자 l의 "항원성"을 나타내는 파라미터이고,

는 펩타이드 p ^k 가 단백질체 위치 m에서 유래되는 경우 1과 동일한 지시 함수이고,

는 단백질체 위치 m이 제시 "핫스팟"인 정도를 나타내는 파라미터이다. 한 구체예에서, 단백질 위치는 동일한 단백질로부터 n개의 인접 펩타이드 블록을 포함할 수 있으며, 여기서 n은 그리드-검색 교차 검증과 같은 적절한 방법을 통해 결정된 모델의 하이퍼 파라미터이다.

실제로, 수식 (10), (11), (12a), (12b) 및 (12c) 중 임의의 추가 항은 대립유전자 비상호작용 변수에 대한 의존성 함수 g _w (·)를 생성하기 위해 조합될 수 있다. 예를 들어, 수식 (10)에서 mRNA 정량 측정을 나타내는 항 h(·) 및 수식 (12)에서 공급원 유전자 항원성을 나타내는 항은 다른 아핀 또는 네트워크 함수과 함께 합쳐서 대립유전자 비상호작용 변수에 대한 의존성 함수를 생성할 수 있다.

수식 (8)을 예로 들면, 아핀 전환 함수

를 사용하여 m=4 상이한 동정된 MHC 대립유전자 중에서 펩타이드 p ^k 가 MHC 대립유전자 h=3에 의해 제시될 가능성은 하기에 의해 생성될 수 있다:

여기서 w ^k 는 펩타이드 p ^k 에 대한 동정된 대립유전자-비상호작용 변수이며, 및

는 MHC 대립유전자-비상호작용 변수에 대해 결정된 파라미터 세트이다.

다른 예로서, 네트워크 전환 함수

여기서 w ^k 는 펩타이드 p ^k 에 대한 동정된 대립유전자-상호작용 변수이며,

도 8은 예시적인 네트워크 모델

및

을 사용하여 MHC 대립유전자 h=3과 관련하여 펩타이드 p ^k 에 대한 제시 가능성을 생성하는 것을 도시한다. 도 8에 도시된 바와 같이, 네트워크 모델 NN ₃ (·)은 MHC 대립유전자 h=3에 대한 대립유전자-상호작용 변수

를 수신하며, 출력

를 생성한다. 네트워크 모델 NN _w (·)는 펩타이드 p ^k 에 대한 대립유전자-비상호작용 변수 w ^k 를 수신하고, 출력

을 생성한다. 출력은 함수 f(·)에 의해 조합되고, 맵핑되어 추정된 제시 가능성 u _k 를 생성한다.

Ⅷ.C. 다중-대립유전자 모델

훈련 모듈(316)은 또한 2개 이상의 MHC 대립유전자가 존재하는 다중-대립유전자 설정에서 펩타이드의 제시 가능성을 예측하기 위해 제시 모델을 구성할 수 있다. 이 경우, 훈련 모듈(316)은 단일 MHC 대립유전자를 발현하는 세포, 다중 MHC 대립유전자를 발현하는 세포, 또는 이들의 조합으로부터 생성된 훈련 데이터(170)의 데이터 사례들 S에 기초하여 제시 모델들을 훈련할 수 있다.

Ⅷ.C.1. 실시예 1: 최대의 과-대립유전자 모델

일 구현예에서, 훈련 모듈(316)은 수식 (2) 내지 (11)과 조합하여 상기 기술된 바와 같이, 단일-대립유전자를 발현하는 세포에 기초하여 결정된 세트 H의 MHC 대립유전자 h 각각에 대해 결정된 제시 가능성

의 함수로서 다중 MHC 대립유전자 H의 세트와 연합된 펩타이드 p ^k 에 대한 추정된 제시 가능성 u _k 을 모델링한다. 구체적으로는, 제시 가능성 u _k 는

의 임의의 함수일 수 있다. 일 구현예에서, 수식 (12)에 도시된 바와 같이, 함수는 최대 함수이고, 제시 가능성 u _k 는 세트 H의 MHC 대립유전자 h 각각에 대해 최대 제시 가능성으로서 결정될 수 있다.

Ⅷ.C.2. 실시예 2.1: 합계-함수 모델

일 구현예에서, 훈련 모듈(316)은 펩타이드 p ^k 에 대한 추정된 제시 가능성 u _k 를 하기에 의해 모델링한다:

여기서, 요소

는 펩타이드 서열

와 관련된 다중 MHC 대립유전자 H에 대해 1이며, 펩타이드 서열 x _h ^k 는 펩타이드 p ^k 및 상응하는 MHC 대립유전자에 대한 인코딩 대립유전자-상호작용 변수를 나타낸다. 각 MHC 대립유전자 h에 대한 파라미터

의 세트에 대한 값은

에 관한 손실 함수를 최소화함으로써 결정될 수 있으며, 여기서, i는 단일 MHC 대립유전자를 발현하는 세포 및/또는 다중 MHC 대립유전자를 발현하는 세포로부터 생성된 훈련 데이터(170)의 서브셋 S 내의 각 사례이다. 의존성 함수

는 섹션 Ⅷ.B.1에서 상기 소개된 임의의 의존성 함수

의 형태로 있을 수 있다.

수식 (13)에 따르면, 펩타이드 서열 p ^k 가 하나 이상의 MHC 대립유전자 h에 의해 제시될 제시 가능성은 대립유전자 상호작용 변수에 대한 상응하는 점수를 생성하기 위해 MHC 대립유전자 H 각각에 대한 펩타이드 서열 p ^k 의 인코딩 버전에 의존성 함수

를 적용함으로써 생성될 수 있다. 각 MHC 대립유전자 h에 대한 스코어는 조합되고, 전환 함수 f(·)에 의해 전환되어 펩타이드 서열 p ^k 가 MHC 대립유전자 H의 세트에 의해 제시될 제시 가능성을 생성한다.

수식 (13)의 제시 모델은 각 펩타이드 p ^k 에 대한 관련된 대립유전자의 수가 1보다 클 수 있다는 점에서, 수식 (2)의 과-대립유전자 모델과는 상이하다. 다시 말해, a _h ^k 에 있는 하나 이상의 요소는 펩타이드 서열 p ^k 와 관련된 다중 MHC 대립유전자 H에 대해 1의 값을 가질 수 있다.

예를 들어, 아핀 전환 함수

를 사용하여 m=4 상이한 동정된 MHC 대립유전자 중에서, 펩타이드 p ^k 가 MHC 대립유전자 h=2, h=3에 의해 제시될 가능성은 하기에 의해 생성될 수 있으며:

여기서

는 MHC 대립유전자 h=2, h=3에 대한 동정된 대립유전자-상호작용 변수이며,

은 MHC 대립유전자 h=2, h=3에 대해 결정된 파라미터 세트이다.

다른 예로서, 네트워크 전환 함수

여기서

는 MHC 대립유전자 h=2, h=3에 대한 동정된 네트워크 모델이며, 및

도 9는 예시적인 네트워크 모델

및

을 사용하여 MHC 대립유전자 h=2, h=3와 관련하여 펩타이드 p ^k 에 대한 제시 가능성을 설명한다. 도 9에 도시된 바와 같이, 네트워크 모델

는 MHC 대립유전자 h=2에 대한 대립유전자-상호작용 변수 x ₂ ^k 를 수신하고, 출력

를 생성하고, 네트워크 모델 NN ₃ (·)은 MHC 대립유전자 h=3에 대한 대립유전자-상호작용 변수 x ₃ ^k 를 수신하며, 출력

를 생성한다. 출력은 함수 f(·)에 의해 조합되고, 맵핑되어 추정된 제시 가능성 u _k 를 생성한다.

Ⅷ.C.3. 실시예 2.2: 대립유전자-비상호작용 변수가 있는 합계-함수 모델

여기서 w ^k 는 펩타이드 p ^k 에 대한 인코딩 대립유전자-비상호작용 변수를 나타낸다. 구체적으로, 각 MHC 대립유전자 h에 대한 파라미터 세트

및 대립유전자-비상호작용 변수에 대한 파라미터 세트

에 대한 값은

및

와 관련하여 손실 함수를 최소화함으로써 결정될 수 있으며, 여기서 i는 단일 MHC 대립유전자를 발현하는 세포 및/또는 복수의 MHC 대립유전자를 발현하는 세포로부터 생성된 훈련 데이터(170)의 서브셋 S에 있는 각 사례이다. 의존성 함수 g _w 는 의존성 함수 섹션 Ⅷ.B.3에서 위에 소개된 임의의 의존성 함수 g _w 의 형태로 있을 수 있다.

따라서, 수식 (14)에 따르면, 펩타이드 서열 p ^k 가 하나 이상의 MHC 대립유전자 H에 의해 제시될 제시 가능성은 각 MHC 대립유전자 h에 대한 대립유전자 상호작용 변수를 위한 대응하는 상응하는 의존성 스코어를 생성하기 위해 MHC 대립유전자 H 각각에 대한 펩타이드 서열 p ^k 의 인코딩 버전에 함수 g _h (·)를 적용함으로써 생성될 수 있다. 대립유전자 비상호작용 변수에 대한 함수 g _w (·)는 또한 대립유전자 비상호작용 변수에 대한 의존성 스코어를 생성하기 위해 대립유전자 비상호작용 변수의 인코딩 버전에도 적용된다. 스코어를 조합하고, 상기 조합된 스코어를 전환 함수 f(·)에 의해 변환하여 펩타이드 서열 p ^k 가 MHC 대립유전자 H에 의해 제시될 제시 가능성을 생성한다.

수식 (14)의 제시 모델에서, 각 펩타이드 p ^k 에 대한 관련된 대립유전자의 수는 1보다 클 수 있다. 다시 말해, a _h ^k 에 있는 하나 이상의 요소는 펩타이드 서열 p ^k 와 관련된 다중 MHC 대립유전자 H에 대해 1의 값을 가질 수 있다.

예를 들어, 아핀 전환 함수

다른 예로서, 네트워크 전환 함수

도 10은 예시적인 네트워크 모델

, 및

를 사용하여 MHC 대립유전자 h=2, h=3과 관련하여 펩타이드 p ^k 에 대한 제시 가능성을 생성하는 것을 도시한다. 도 10에 도시된 바와 같이, 네트워크 모델 NN ₂ (·)은 MHC 대립유전자 h=2에 대한 대립유전자-상호작용 변수

를 수신하고, 출력

를 생성한다. 네트워크 모델 NN ₃ (·)은 MHC 대립유전자 h=3에 대한 대립유전자-상호작용 변수 x₃ ^k를 수신하고, 출력

를 생성한다. 네트워크 모델 NN _w (·)는 펩타이드 p ^k 에 대한 대립유전자-비상호작용 변수

를 수신하고, 출력

대안적으로, 훈련 모듈(316)는 대립유전자-비상호작용 변수

를 수식 (15)의 대립유전자-상호작용 변수

에 첨가하여 예측에 대립유전자-비상호작용 변수

Ⅷ.C.4. 실시예 3.1: 암시적 과-대립유전자 가능성을 사용하는 모델

또다른 구현예에서, 훈련 모듈(316)은 펩타이드 p ^k 에 대한 추정된 제시 가능성 u ^k 를 하기에 의해 모델링한다:

여기서, 요소 a _h ^k 는 펩타이드 서열 p ^k 와 관련된 다중 MHC 대립유전자 h∈H의 경우 1이며, u' _k ^h 는 MHC 대립유전자 h에 대한 암시적인 과-대립유전자 제시 가능성이며, 벡터 v는 요소 v _h 가 a _h ^k ·u' _k ^h 에 대응하는 벡터이며, s(·)는 v의 요소를 맵핑하는 함수이고 r(·)는 주어진 값으로 입력 값을 잘라내는 클리핑 함수이다. 이하에서, 보다 상세히 설명되는 바와 같이, s(·)는 합계 함수 또는 2차 함수일 수 있지만, 다른 구현예에서는 s(·)는 최대 함수와 같은 임의의 함수가 될 수 있다. 암시적 과-대립유전자 가능성에 대한 파라미터 세트 θ에 대한 값은 θ에 대한 손실 함수를 최소화하여 결정할 수 있으며, 여기서는 단일 MHC 대립유전자를 발현하는 세포 및/또는 다중 MHC 대립유전자를 발현하는 세포로부터 생성된 훈련 데이터(170)의 서브셋 S에 있는 각각의 사례이다.

수식 (17)의 제시 모델에서 제시 가능성은 가능성 펩타이드 p ^k 에 대응하는 각각이 개별 MHC 대립유전자 h에 의해 제시될 암시적인 과-대립유전자 제시 가능성의 함수

로 모델링된다. 암시적인 과-대립유전자 가능성은 암시적 과-대립유전자 가능성을 위한 파라미터가 제시된 펩타이드와 상응하는 MHC 대립유전자 사이의 직접적인 연관이 단일-대립유전자 설정 이외에 알려지지 않는, 다중 대립유전자 설정으로부터 학습될 수 있다는 점에서 섹션 Ⅷ.B의 과-대립유전자 제시 가능성과 구별된다. 따라서, 다중-대립유전자 설정에서 제시 모델은 펩타이드 p ^k 가 일련의 MHC 대립유전자 H의 세트에 의해 전반적으로 제시될 것이지만, MHC 대립유전자 h가 펩타이드 p ^k 로 제시될 가능성이 가장 높은 것을 나타내는 개별 가능성 u' _k ^h∈H 을 제공할 수도 있다. 이것의 장점은 제시 모델이 단일 MHC 대립유전자를 발현하는 세포에 대한 훈련 데이터없이 암시적 가능성을 생성할 수 있다는 점이다.

나머지 명세서에서 언급된 특정한 일 구현예에서, r(·)은 범위 [0, 1]을 갖는 함수이다. 예를 들어 r(·)은 클립 함수일 수 있다:

여기서 z와 1 사이의 최소값이 제시 가능성 u _k 로 선택된다. 또 다른 구현예에서, r(·)은 하기의 경우 하기에 의해 주어진 쌍곡선 탄젠트 함수이다.

여기서, 도메인 z에 대한 값이 0 이상일 때.

Ⅷ.C.5. 실시예 3.2: 함수-합계 모델

특정한 구현예에서, s(·)는 합계 함수이고, 제시 가능성은 암시적 과-대립유전자 제시 가능성을 합산함으로써 제공된다:

일 구현예에서, MHC 대립유전자 h 에 대한 암시적 과-대립유전자 제시 가능성은 하기에 의해 생성되어:

제시 가능성이 하기에 의해 추정된다:

식 (19)에 따르면, 펩타이드 서열 p ^k 가 하나 이상의 MHC 대립유전자 H에 의해 제시될 제시 가능성은 MHC 대립유전자 H 각각에 대해 펩타이드 서열 p ^k 의 인코딩 버전에 함수 g _h (·)를 적용함으로써 생성될 수 있어, 대립유전자 상호작용 변수에 대한 상응하는 의존성 스코어를 생성한다. 각 의존성 스코어는 함수 f(·)에 의해 먼저 전환되어, 암시적인 과-대립유전자 제시 가능성 u' _k ^h 를 생성한다. 과-대립유전자 가능성 u' _k ^h 는 조합되며, 클리핑 함수를 조합된 가능성에 적용하여 값을 범위 [0, 1]로 클리핑하고 펩타이드 서열 p ^k 가 MHC 대립유전자 H의 세트에 의해 제시될 제시 가능성을 생성할 수 있다. 의존성 함수 g _h 는 섹션 Ⅷ.B.1에서 상기 소개된 임의의 의존성 함수 g _h 의 형태로 있을 수 있다.

예를 들어, 아핀 전환 함수 g _h (·)를 사용하여 m=4 상이한 동정된 MHC 대립유전자 중에서, 펩타이드 p ^k 가 MHC 대립유전자 h=2, h=3에 의해 제시될 가능성은 하기에 의해 생성될 수 있으며:

여기서

다른 예로서, 네트워크 전환 함수

여기서

도 11은 예시적인 네트워크 모델

을 사용하여 MHC 대립유전자 h=2, h=3와 관련하여 펩타이드 p ^k 에 대한 제시 가능성을 설명한다. 도 9에 도시된 바와 같이, 네트워크 모델 NN ₂ (·)는 MHC 대립유전자 h=2에 대한 대립유전자-상호작용 변수 x ₂ ^k 를 수신하고, 출력

를 생성하고, 네트워크 모델 NN ₃ (·)은 MHC 대립유전자 h=3에 대한 대립유전자-상호작용 변수 x ₃ ^k 를 수신하며, 출력 NN ₃ ( x ₃ ^k )를 생성한다. 각 출력은 함수 f(·)에 의해 맵핑되고, 조합되어 추정된 제시 가능성 u _k 를 생성한다.

또 다른 구현예에서 질량 분광분석 이온 전류의 로그에 대한 예측이 이루어지는 경우, r(·)은 로그 함수이고, f(·)는 지수 함수이다.

Ⅷ.C.6. 실시예 3.3: 대립유전자-비상호작용 변수가 있는 함수-합계 모델

제시 가능성(가능성)이 하기에 의해 생성된다:

대립유전자 비상호작용 변수가 펩타이드 제시에 미치는 영향을 통합한다.

수식 (21)에 따르면, 펩타이드 서열 p ^k 가 하나 이상의 MHC 대립유전자 H에 의해 제시될 제시 가능성은 각 MHC 대립유전자 h에 대한 대립유전자 상호작용 변수에 대한 대응하는 의존성 스코어를 생성하기 위해 MHC 대립유전자 H의 각각에 대한 펩타이드 서열 p ^k 의 인코딩 버전으로 함수 g _h (·)를 적용함으로써 생성될 수 있다. 대립유전자 비상호작용 변수에 대한 함수 g _w (·)는 또한 대립유전자 비상호작용 변수에 대한 의존성 스코어를 생성하기 위해 대립유전자 비상호작용 변수의 인코딩 버전에도 적용된다. 대립유전자 비상호작용 변수에 대한 점수는 대립유전자 상호작용 변수에 대한 각각의 의존성 스코어와 조합된다. 조합된 각 스코어는 함수 f(·)로 전환되어 암시적 과-대립유전자 제시 가능성을 생성한다. 암시적 가능성은 조합되고, 클리핑 함수는 조합된 출력에 적용되어 값을 범위 [0, 1]로 클리핑하여 펩타이드 서열 p ^k 가 MHC 대립유전자 H에 의해 제시될 제시 가능성을 생성할 수 있다. 의존성 함수 g _w 는 의존성 함수 섹션 Ⅷ.B.3에서 위에 소개된 임의의 의존성 함수 g _w 의 형태로 있을 수 있다.

예를 들어, 아핀 전환 함수

다른 예로서, 네트워크 전환 함수

도 12은 예시적인 네트워크 모델

, 및

를 사용하여 MHC 대립유전자 h=2, h=3과 관련하여 펩타이드 p ^k 에 대한 제시 가능성을 생성하는 것을 도시한다. 도 12에 도시된 바와 같이, 네트워크 모델 NN ₂ (·)은 MHC 대립유전자 h=2에 대한 대립유전자-상호작용 변수 x ₂ ^k 를 수신하며, 출력

를 생성한다. 네트워크 모델 NN _w (·)는 펩타이드 p ^k 에 대한 대립유전자-비상호작용 변수 w ^k 를 수신하고, 출력 NN _w (w ^k )을 생성한다. 출력은 함수 f(·)에 의해 조합되고 맵핑된다. 네트워크 모델 NN ₃ (·)은 MHC 대립유전자 h=3에 대한 대립유전자-상호작용 변수 x ₃ ^k 를 수신하고, 출력 NN ₃ ( x ₃ ^k )를 생성하며, 이는 동일한 네트워크 모델

의 출력

과 다시 조합하고, 함수 f(·)에 의해 맵핑된다. 두 출력은 조합되어, 추정된 제시 가능성 u _k 를 생성한다.

다른 구현예에서, MHC 대립유전자 h에 대한 암시적 과-대립유전자 제시 가능성은 하기에 의해 생성되어:

제시 가능성(가능성)이 하기에 의해 생성된다:

Ⅷ.C.7. 실시예 4: 2차 모델

일 구현예에서, s(·)는 2차 함수이고, 펩타이드 p ^k 에 대한 추정된 제시 가능성 u _k 는 하기에 의해 제공된다:

여기서, 요소 u' _k ^h 는 MHC 대립유전자 h에 대한 암시적 과-대립유전자 제시 가능성이다. 암시적 과-대립유전자 가능성에 대한 파라미터 θ의 세트에 대한 값은 θ에 대한 손실 함수를 최소화하여 결정할 수 있으며, 여기서 i는 단일 MHC 대립유전자를 발현하는 세포 및/또는 다중 MHC 대립유전자를 발현하는 세포로부터 생성된 훈련 데이터(170)의 서브셋 S에 있는 각각의 사례이다. 묵시적인 과-대립유전자 제시 가능성은 위에 기술된 수식 (18), (20), (22)에 나타난 어떤 형태이든 가능하다.

일 양태에서, 수식 (23)의 모델은 2개의 MHC 대립유전자에 의해 펩타이드 p ^k 가 동시에 제시될 가능성이 있음을 암시할 수 있으며, 2개의 HLA 대립유전자에 의한 제시는 통계적으로 독립적이다.

수식 (23)에 따르면, 펩타이드 서열 p ^k 가 하나 이상의 MHC 대립유전자 H에 의해 제시될 제시 가능성은 암시적 과-대립유전자 제시 가능성을 조합하고 각 쌍의 MHC 대립유전자가 합산으로부터 펩타이드 p ^k 를 동시에 제시할 가능성을 빼서, MHC 대립유전자 H에 의해 펩타이드 서열 p ^k 가 제시될 제시 가능성을 생성하여 생성될 수 있다

예를 들어, 아핀 전환 함수 g _h (·)를 사용하여 m=4 상이한 동정된 HLA 대립유전자 중에서 펩타이드 p ^k 가 HLA 대립유전자 h=2, h=3에 의해 제시될 가능성은 하기에 의해 생성될 수 있다:

여기서,

는 HLA 대립유전자 h=2, h=3에 대해 동정된 대립유전자-상호작용 변수이며,

은 HLA 대립유전자 h=2, h=3에 대해 결정된 파라미터 세트이다.

다른 예로서, 네트워크 전환 함수

를 사용하여 m=4 상이한 동정된 HLA 대립유전자 중에서 펩타이드 p ^k 가 HLA 대립유전자 h=2, h=3에 의해 제시될 가능성은 하기에 의해 생성될 수 있다:

여기서,

는 HLA 대립유전자 h=2, h=3, 에 대해 동정된 네트워크 모델이며,

IX. 실시예 5: 예측 모듈

예측 모듈(320)은 서열 데이터를 수신하고, 제시 모델을 사용하여 서열 데이터 내의 후보 신생항원을 선택한다. 구체적으로, 서열 데이터는 환자의 종양 조직 세포로부터 추출된 DNA 서열, RNA 서열 및/또는 단백질 서열일 수 있다. 상기 예측 모듈(320)은 상기 서열 데이터를 MHC-I에 대해 8 내지 15개의 아미노산 또는 MHC-II에 대해 6 내지 30개의 아미노산을 갖는 복수의 펩타이드 서열 p ^k 로 처리한다. 예를 들어, 예측 모듈(320)은 주어진 서열 "IEFROEIFJEF"를 9개의 아미노산을 갖는 3개의 펩타이드 서열 IEFROEIFJ", "EFROEIFJE" 및 "FROEIFJEF"로 처리할 수 있다. 일 구현예에서, 예측 모듈(320)은 환자의 정상 조직 세포로부터 추출한 서열 데이터와 환자의 종양 조직 세포로부터 추출한 서열 데이터를 비교하여 하나 이상의 돌연변이를 함유하는 부분을 동정함으로써 돌연변이된 펩타이드 서열인 후보 신생항원을 동정할 수 있다.

예측 모듈(320)은 처리된 펩타이드 서열에 하나 이상의 제시 모델을 적용하여, 펩타이드 서열의 제시 가능성을 추정한다. 구체적으로, 예측 모듈(320)은 후보 신생항원에 제시 모델을 적용함으로써 종양 HLA 분자 상에 제시될 가능성이 있는 하나 이상의 후보 신생항원 서열을 선택할 수 있다. 일 구현예에서, 예측 모듈(320)은 미리 결정된 임계치를 초과하는 추정된 제시 가능성을 갖는 후보 신생항원 서열을 선택한다. 다른 구현예에서, 제시 모델은 가장 높은 추정된 제시 가능성을 갖는 v개의 후보 신생항원 서열을 선택한다 (여기서, v은 일반적으로 백신내에 전달될 수 있는 에피토프의 최대 개수임). 주어진 환자에 대해 선택된 후보 신생항원을 포함하는 백신은 환자에게 주사되어 면역 반응을 유도할 수 있다.

X. 실시예 6: 환자 선택 모듈

환자 선택 모듈(324)은 환자가 포함 기준을 충족하는지 여부에 기초하여 백신 치료 및/또는 T-세포 요법에 대한 환자의 서브셋을 선택한다. 일 구현예에서, 포함 기준은 제시 모델에 의해 생성된 바와 같이 같은 환자 신생항원 후보의 제시 가능성에 기초하여 결정된다. 포함 기준을 조정함으로써, 환자 선택 모듈(324)은 신생항원 후보의 제시 가능성에 기초하여 백신 및/또는 T-세포 요법을 받을 환자의 수를 조정할 수 있다. 구체적으로, 엄격한 포함 기준은 백신 및/또는 T-세포 요법으로 치료될 소수의 환자를 초래하지만, 효과적인 치료(예를 들어, 1개 이상의 종양-특이적 신생항원(TSNA) 및/또는 1개 이상의 신생항원-반응성 T-세포)를 받은 더 높은 비율의 백신 및/또는 T-세포 요법-치료된 환자를 초래할 수 있다. 한편, 관대한 포함 기준은 백신 및/또는 T-세포 요법으로 치료될 더 많은 수의 환자를 초래하지만, 효과적인 치료를 받은 더 낮은 비율의 백신 및/또는 T-세포 요법-치료된 환자를 초래할 수 있다. 환자 선택 모듈(324)은 치료를 받을 환자의 표적 비율과 효과적인 치료를 받은 환자의 비율 사이의 원하는 균형에 기초하여 포함 기준을 변형시킨다.

일부 구현예에서, 백신 치료를 받을 환자의 선택을 위한 포함 기준은 T-세포 요법을 받을 환자의 선택을 위한 포함 기준과 동일하다. 그러나, 대안적인 구현예에서, 백신 치료를 받을 환자의 선택을 위한 포함 기준은 T-세포 요법을 받을 환자의 선택을 위한 포함 기준과 상이할 수 있다. 하기 섹션 X.A 및 X.B는 각각 백신 치료를 받을 환자의 선택을 위한 포함 기준 및 T-세포 요법을 받을 환자의 선택을 위한 포함 기준을 논의한다.

X.A. 백신 치료를 위한 환자 선택

일 구현예에서, 환자는 백신 용량 v를 갖는 환자에 대한 맞춤형 백신에 잠재적으로 포함될 수 있는 v 신생항원 후보의 상응하는 치료 서브셋과 관련된다. 일 구현예에서, 환자에 대한 서브셋은 제시 모델에 의해 결정된 바와 같이 가장 높은 제시 가능성을 갖는 신생항원 후보이다. 예를 들어, 백신이 v=20 에피토프를 포함할 수 있는 경우, 백신은 제시 모델에 의해 결정된 바와 같이 가장 높은 제시 가능성을 갖는 각각의 환자의 치료 서브셋을 포함할 수 있다. 그러나, 다른 구현예에서, 환자에 대한 치료 서브셋이 다른 방법에 기초하여 결정될 수 있다는 것이 이해된다. 예를 들어, 환자에 대한 치료 서브셋은 환자에 대한 신생항원 세트 후보로부터 무작위로 선택될 수 있거나, 또는 펩타이드 서열의 결합 친화성 또는 안정성을 모델링하는 현재 최신기술 모델, 또는 제시 모델로부터의 제시 가능성 및 이러한 펩타이드 서열에 관한 친화성 또는 안정성 정보를 포함하는 인자의 일부 조합에 기초하여 부분적으로 결정될 수 있다.

일 구현예에서, 환자 선택 모듈(324)은 환자의 종양 돌연변이 부담이 최소 돌연변이 부담과 동등하거나 초과하는 경우 환자가 포함 기준을 충족시키는 것으로 결정한다. 환자의 종양 돌연변이 부담(TMB)은 종양 엑솜에서 비동의 돌연변이의 총 수를 나타낸다. 일 구현에서, 환자 선택 모듈(324)은 환자의 TMB의 절대 수가 미리 결정된 임계치와 동등하거나 초과하는 경우 백신 치료를 위한 환자를 선택할 수 있다. 또 다른 구현에서, 환자 선택 모듈(324)은 환자의 TMB가 환자 세트에 대해 결정된 TMB 중에서 임계치 백분위 내에 있는 경우 백신 치료를 위해 환자를 선택할 수 있다.

또 다른 구현예에서, 환자 선택 모듈(324)은 환자의 치료 서브셋에 기초한 환자의 효용 스코어가 최소 효용 스코어와 동등하거나 초과하는 경우 환자가 포함 기준을 충족시키는 것으로 결정한다. 일 구현에서, 효용 스코어는 치료 서브셋으로부터 제시된 신생항원의 추정된 수의 척도이다.

제시된 신생항원의 추정된 수는 신생항원 제시를 하나 이상의 확률 분포의 무작위 변수로서 모델링함으로써 예측될 수 있다. 일 구현에서, 환자 i에 대한 효용 스코어는 치료 서브셋으로부터 제시된 신생항원 후보의 예상된 수, 또는 그의 일부 함수이다. 예로서, 각각의 신생항원의 제시는 베르누이(Bernoulli) 무작위 변수로서 모델링될 수 있으며, 여기서 제시 확률(성공)은 신생항원 후보의 제시 가능성에 의해 주어진다. 구체적으로, 각각이 가장 높은 제시 가능성

을 갖는 v 신생항원 후보

의 치료 서브셋 S _i 에 대하여, 신생항원 후보

의 제시는 무작위 변수 A _ij 에 의해 주어지며, 다음과 같다:

제시된 신생항원의 예상된 수는 각각의 신생항원 후보에 대한 제시 가능성의 합계에 의해 주어진다. 다시 말해, 환자 i에 대한 효용 스코어는 다음과 같이 표현될 수 있다:

환자 선택 모듈(324)은 백신 치료에 대한 최소 효용과 동등하거나 초과하는 효용 스코어를 갖는 환자의 서브셋을 선택한다.

또 다른 구현에서, 환자 i에 대한 효용 스코어는 적어도 신생항원의 임계치 수 k가 제시될 확률이다. 일 예에서, 신생항원 후보의 치료 서브셋 S _i 에서 제시된 신생항원의 수는 포아송 이항(Poisson Binomial) 무작위 변수로서 모델링되며, 여기서 제시 확률(성공)은 에피토프 각각의 제시 가능성에 의해 주어진다. 구체적으로, 환자 i에 대해 제시된 신생항원의 수는 하기 무작위 변수 N _i 에 의해 주어질 수 있으며:

여기서 PBD(·)는 포아송 이항 분포를 나타낸다. 적어도 신생항원의 임계치 수 k가 제시될 확률은 제시된 신생항원의 수 N _i 가 k와 동등하거나 초과할 확률의 합계에 의해 주어진다. 다시 말해, 환자 i에 대한 효용 스코어는 다음과 같이 표현될 수 있다:

또 다른 구현에서, 환자 i에 대한 효용 스코어는 환자의 HLA 대립유전자 중 하나 이상에 대한 결합 친화성 또는 고정 임계치 미만(예를 들어, 500nM)의 예측된 결합 친화성을 갖는 신생항원 후보의 치료 서브셋 S _i 에서 신생항원의 수이다. 일 예에서, 고정 임계치는 1000nM 내지 10nM 범위이다. 임의적으로, 효용 스코어는 RNA-seq를 통해 표시되었을 때 검출된 신생항원만을 계수할 수 있다.

또 다른 구현에서, 환자 i에 대한 효용 스코어는 해당 HLA 대립유전자에 대해 무작위 펩타이드에 대한 결합 친화성의 임계치 백분위에서 또는 그 미만에서 해당 환자의 HLA 대립유전자 중 하나 이상에 대해 결합 친화성을 갖는 신생항원 후보의 치료 서브셋 S _i 에서 신생항원의 수이다. 일 예에서, 임계치 백분위는 10번째 백분위 내지 0.1번째 백분위 범위이다. 임의적으로, 효용 스코어는 RNA-seq를 통해 표시되었을 때 검출된 신생항원만을 계수할 수 있다.

수식 (25) 및 (27)과 관련하여 예시된 효용 스코어를 생성하는 예는 단지 예시적인 것이며, 환자 선택 모듈(324)은 다른 통계 또는 확률 분포를 사용하여 효용 스코어를 생성할 수 있다는 것이 이해된다.

X.B. T-세포 요법을 위한 환자 선택

또 다른 구현예에서, 백신 치료를 받는 대신에 또는 그에 더하여, 환자는 T-세포 요법을 받을 수 있다. 백신 치료와 같이, 환자가 T-세포 요법을 받는 구현예에서, 환자는 상기 기재된 바와 같은 v 신생항원 후보의 상응하는 치료 서브셋과 관련될 수 있다. v 신생항원 후보의 이러한 치료 서브셋은 v 신생항원 후보 중 하나 이상에 반응성인 환자로부터의 T-세포의 시험관내 동정에 사용될 수 있다. 이어서 이들 동정된 T-세포는 확장되고 맞춤형 T-세포 요법을 위해 환자에게 주입될 수 있다.

환자는 2개의 상이한 시점에서 T-세포 요법을 받도록 선택될 수 있다. 첫번째 시점은 v 신생항원 후보의 치료 서브셋이 모델을 사용하여 환자에 대해 예측된 후, 그러나 v 신생항원 후보의 예측된 치료 서브셋에 특이적인 T-세포에 대한 시험관내 스크리닝 전이다. 두번째 시점은 v 신생항원 후보의 예측된 치료 서브셋에 특이적인 T-세포에 대한 시험관내 스크리닝 후이다.

먼저, 환자는 v 신생항원 후보의 치료 서브셋이 환자에 대해 예측된 후, 그러나 v 신생항원 후보의 예측된 서브셋에 특이적인 환자로부터의 T-세포의 시험관내 동정 전에 T-세포 요법을 받도록 선택될 수 있다. 구체적으로, 환자로부터의 신생항원-특이적 T-세포에 대한 시험관내 스크리닝은 비쌀 수 있기 때문에, 환자가 신생항원-특이적 T-세포를 가질 가능성이 있는 경우 환자를 신생항원-특이적 T-세포에 대해 스크리닝하기 위해 선택하는 것만이 바람직할 수 있다. 시험관내 T-세포 스크리닝 단계 전에 환자를 선택하기 위해, 백신 치료를 위해 환자를 선택하도록 사용된 것과 동일한 기준이 사용될 수 있다. 구체적으로, 일부 구현예에서, 환자 선택 모듈(324)은 환자의 종양 돌연변이 부담이 상기 기재된 바와 같은 최소 돌연변이 부담과 동등하거나 초과하는 경우 T-세포 요법을 받을 환자를 선택할 수 있다. 또 다른 구현예에서, 환자 선택 모듈(324)은 환자에 대한 v 신생항원 후보의 치료 서브셋에 기초한 환자의 효용 스코어가 상기 기재된 바와 같이 최소 효용 스코어와 동등하거나 초과하는 경우 T-세포 요법을 받을 환자를 선택할 수 있다.

둘째, v 신생항원 후보의 예측된 서브셋에 특이적인 환자로부터의 T-세포의 시험관내 동정 전에 T-세포 요법을 받을 환자를 선택하는 것 이외에 또는 그 대신에, 환자는 또한 v 신생항원 후보의 예측된 치료 서브셋에 특이적인 T-세포의 시험관내 동정 후에 T-세포 요법을 받도록 선택될 수 있다. 구체적으로, 환자는 적어도 신생항원-특이적 TCR의 임계량이 신생항원 인식을 위해 환자의 T-세포의 시험관내 스크리닝 동안 환자에 대해 동정되는 경우 T-세포 요법을 받도록 선택될 수 있다. 예를 들어, 환자는 적어도 2개의 신생항원-특이적 TCR이 환자에 대해 동정된 경우에만, 또는 신생항원-특이적 TCR이 2개의 별개의 신생항원에 대해 동정된 경우에만 T-세포 요법을 받도록 선택될 수 있다.

또 다른 구현예에서, 환자는 적어도 환자에 대한 v 신생항원 후보의 치료 서브셋의 신생항원의 임계량이 환자의 TCR에 의해 인식된 경우에만 T-세포 요법을 받도록 선택될 수 있다. 예를 들어, 환자는 환자에 대한 v 신생항원 후보의 치료 서브셋의 적어도 하나의 신생항원이 환자의 TCR에 의해 인식된 경우에만 T-세포 요법을 받도록 선택될 수 있다. 추가 구현예에서, 환자는 적어도 환자에 대한 TCR의 임계량이 특정 HLA 제한 클래스의 신생항원 펩타이드에 대해 신생항원-특이적인 것으로 동정된 경우에만 T-세포 요법을 받도록 선택될 수 있다. 예를 들어, 환자는 환자에 대해 적어도 하나의 TCR이 신생항원-특이적 HLA 부류 I 제한된 신생항원 펩타이드로 동정된 경우에만 T-세포 요법을 받도록 선택될 수 있다.

심지어 추가 구현예에서, 환자는 적어도 특정 HLA 제한 클래스의 신생항원 펩타이드의 임계량이 환자의 TCR에 의해 인식된 경우에만 T-세포 요법을 받도록 선택될 수 있다. 예를 들어, 환자는 적어도 하나의 HLA 부류 I 제한된 신생항원 펩타이드가 환자의 TCR에 의해 인식된 경우에만 T-세포 요법을 받도록 선택될 수 있다. 또 다른 예로서, 환자는 적어도 2개의 HLA 부류 II 제한된 신생항원 펩타이드가 환자의 TCR에 의해 인식된 경우에만 T-세포 요법을 받도록 선택될 수 있다. 상기 기준의 임의의 조합은 또한 환자에 대한 v 신생항원 후보의 예측된 치료 서브셋에 특이적인 T-세포의 시험관내 동정 후에 T-세포 요법을 받도록 환자를 선택하는데 사용될 수 있다.

XI. 실시예 7: 예시적인 환자 선택 수행을 보여주는 실험 결과

섹션 X에 기재된 환자 선택 방법의 타당성은 모의 신생항원 후보의 테스트 세트와 관련된 모의 환자 각각의 세트에 대해 환자 선택을 수행함으로써 테스트되며, 여기서 모의 신생항원의 서브셋은 질량 분광법 데이터로 제시되는 것으로 알려져 있다. 구체적으로, 테스트 세트에서 각각의 모의 신생항원 후보는 신생항원이 Bassani-Sternberg 데이터 세트로부터의 다중-대립유전자 JY 세포주 HLA-A*02:01 및 HLA-B*07:02 질량 분광법 데이터 세트(데이터 세트 "D1")에 제시되었는지 여부를 나타내는 표지와 관련된다(데이터는 www.ebi.ac.uk/pride/archive/projects/PXD0000394에서 찾을 수 있다). 도 13a와 관련하여 하기 보다 상세히 기재된 바와 같이, 모의 환자에 대한 신생항원 후보의 수는 비소세포 폐암(NSCLC) 환자에서 돌연변이 부담의 알려진 빈도 분포에 기초하여 인간 프로테옴으로부터 샘플링된다.

동일한 HLA 대립유전자에 대한 과-대립유전자 제시 모델은 IEDB 데이터 세트로부터의 단일-대립유전자 HLA-A*02:01 및 HLA-B*07:02 질량 분광법 데이터(데이터 세트 "D2")의 서브셋인 훈련 세트를 사용하여 훈련된다(데이터는 http://www.iedb.org/doc/mhc_ligand_full.zip에서 찾을 수 있다). 구체적으로, 각각의 대립유전자에 대한 제시 모델은 네트워크 의존성 함수 g _h (·) 및 g _w (·), 및 expit 함수 f(·)와 함께, 대립유전자-비상호작용 변수로서 N-말단 및 C-말단 측접 서열을 포함한 수식 (8)에서 나타낸 과-대립유전자 모델이었다. 대립유전자 HLA-A*02:01에 대한 제시 모델은 대립유전자-상호작용 변수로서 펩타이드 서열, 및 대립유전자-비상호작용 변수로서 N-말단 및 C-말단 측접 서열이 주어지면, 주어진 펩타이드가 대립유전자 HLA-A*02:01에 대해 제시될 제시 가능성을 생성한다. 대립유전자 HLA-B*07:02에 대한 제시 모델은 대립유전자-상호작용 변수로서 펩타이드 서열, 및 대립유전자-비상호작용 변수로서 N-말단 및 C-말단 측접 서열이 주어지면, 주어진 펩타이드가 대립유전자 HLA-B*07:02에 대해 제시될 제시 가능성을 생성한다.

하기 실시예 및 도 13a-13e을 참조하여 설명된 바와 같이, 다양한 모델, 예컨대 펩타이드 결합 예측을 위한 훈련된 제시 모델 및 현재 최신기술 모델은 각각의 모의 환자를 위한 신생항원 후보의 테스트 세트에 적용되어 예측에 기초한 환자를 위한 상이한 치료 서브셋을 동정한다. 포함 기준을 충족하는 환자는 백신 치료를 위해 선택되고, 환자의 치료 서브셋에서 에피토프를 포함하는 맞춤형 백신와 관련된다. 치료 서브셋의 크기는 상이한 백신 용량에 따라 달라진다. 제시 모델을 훈련시키는데 사용된 훈련 세트와 모의 신생항원 후보의 테스트 세트 사이에 중복은 도입되지 않았다.

하기 실시예에서, 백신에 포함된 에피토프 중에서 적어도 제시된 신생항원의 특정 수를 갖는 선택된 환자의 비율이 분석된다. 이 통계는 환자에서 면역 반응을 도출할 잠재적 신생항원을 전달하는 모의 백신의 효과를 나타낸다. 구체적으로, 신생항원이 질량 분광법 데이터 세트 D2에서 제시되는 경우 테스트 세트에서 모의 신생항원이 제시된다. 제시된 신생항원을 갖는 환자의 높은 비율은 면역 반응을 유도함으로써 신생항원 백신을 통한 성공적인 치료 가능성을 나타낸다.

XI.A. 실시예 7A: NSCLC 암 환자에 대한 돌연변이 부담의 빈도 분포

도 13a는 NSCLC 환자에서 돌연변이 부담의 샘플 빈도 분포를 도시한다. NSCLC를 포함한 상이한 종양 유형에서 돌연변이 부담 및 돌연변이는, 예를 들어, 암 게놈 아틀라스(TCGA)(https://cancergenome.nih.gov)에서 찾을 수 있다. x-축은 각각의 환자에서 비동의 돌연변이의 수를 나타내고, y-축은 주어진 수의 비동의 돌연변이를 갖는 샘플 환자의 비율을 나타낸다. 도 13a에서 샘플 빈도 분포는 3-1786개 돌연변이의 범위를 나타내며, 여기서 환자의 30%는 100개 미만의 돌연변이를 갖는다. 도 13a에 도시되어 있지 않지만, 연구는 돌연변이 부담이 비흡연자에 비해 흡연자에서 더 높고, 돌연변이 부담이 환자에서 신생항원 로드의 강한 지표일 수 있음을 나타낸다.

상기 섹션 XI의 도입부에 소개된 바와 같이, 모의 환자의 수 각각은 신생항원 후보의 테스트 세트와 관련된다. 각각의 환자에 대한 테스트 세트는 각각의 환자에 대해 도 13a에 도시된 빈도 분포로부터 돌연변이 부담 m _i 를 샘플링함으로써 생성된다. 각각의 돌연변이에 대해, 모의 돌연변이된 서열을 나타내기 위해 인간 프로테옴으로부터의 21-mer 펩타이드 서열이 무작위로 선택된다. 신생항원 후보 서열의 테스트 세트는 21-mer에서 돌연변이를 스패닝하는 각각의 (8, 9, 10, 11)-mer 펩타이드 서열을 동정함으로써 환자 i에 대해 생성된다. 각각의 신생항원 후보는 신생항원 후보 서열이 질량 분광법 D1 데이터 세트에 제시되었는지 여부를 나타내는 표지와 관련된다. 예를 들어, 데이터 세트 D1에서 제시하는 신생항원 후보 서열은 표지 "1"과 관련될 수 있는 반면, 데이터 세트 D1에서 제시하지 않는 서열은 표지 "0"과 관련될 수 있다. 하기에 보다 상세히 기재된 바와 같이, 도 13b 내지 13e는 테스트 세트에서 환자의 제시된 신생항원에 기초한 환자 선택에 대한 실험 결과를 도시한다.

XI.B. 실시예 7B: 돌연변이 부담 포함 기준에 기초한 신생항원 제시를 갖는 선택된 환자의 비율

도 13b는 환자가 최소 돌연변이 부담을 충족하는지 여부의 포함 기준에 기초하여 선택된 환자에 대해 모의 백신에서 제시된 신생항원의 수를 도시한다. 상응하는 테스트에서 적어도 제시된 신생항원의 특정 수를 갖는 선택된 환자의 비율이 동정된다.

도 13b에서, x-축은 표지 "최소 돌연변이 #"로 나타낸 바와 같이, 최소 돌연변이 부담에 기초하여 백신 치료로부터 제외된 환자의 비율을 나타낸다. 예를 들어, 200 "최소 돌연변이 #"에서 데이터 포인트는 환자 선택 모듈(324)이 적어도 200개 돌연변이의 돌연변이 부담을 갖는 모의 환자의 서브셋만을 선택했음을 나타낸다. 또 다른 예로서, 300 "최소 돌연변이 #"의 데이터 포인트는 환자 선택 모듈(324)이 적어도 300개의 돌연변이를 갖는 모의 환자의 더 적은 비율을 선택했음을 나타낸다. y-축은 임의의 백신 용량 v 없이 테스트 세트에서 적어도 제시된 신생항원의 특정 수와 관련된 선택된 환자의 비율을 나타낸다. 구체적으로, 상단 플롯은 적어도 1개의 신생항원을 제시하는 선택된 환자의 비율을 나타내고, 중간 플롯은 적어도 2개의 신생항원을 제시하는 선택된 환자의 비율을 나타내고, 하단 플롯은 적어도 3개의 신생항원을 제시하는 선택된 환자의 비율을 나타낸다.

도 13b에 나타낸 바와 같이, 제시된 신생항원을 갖는 선택된 환자의 비율은 더 높은 돌연변이 부담에 따라 유의하게 증가한다. 이는 포함 기준으로서 돌연변이 부담이 신생항원 백신이 성공적인 면역 반응을 유도할 가능성이 있는 환자를 선택하는데 효과적일 수 있음을 나타낸다.

XI.C. 실시예 7C: 제시 모델 vs. 최신기술 모델에 의해 동정된 백신에 대한 신생항원 제시의 비교

도 13c는 제시 모델에 기초하여 동정된 치료 서브셋을 포함하는 백신과 관련된 선택된 환자와 현재 최신기술 모델을 통해 동정된 치료 서브셋을 포함하는 백신과 관련된 선택된 환자 사이의 모의 백신에서 제시된 신생항원의 수를 비교한다. 좌측 플롯은 제한된 백신 용량 v=10을 가정하고, 우측 플롯은 제한된 백신 용량 v=20을 가정한다. 환자는 제시된 신생항원의 예상된 수를 나타내는 효용 스코어에 기초하여 선택된다.

도 13c에서, 실선은 대립유전자 HLA-A*02:01 및 HLA-B*07:02에 대한 제시 모델에 기초하여 동정된 치료 서브셋을 포함하는 백신과 관련된 환자를 나타낸다. 각각의 환자에 대한 치료 서브셋은 제시 모델 각각을 테스트 세트의 서열에 적용하고, 가장 높은 제시 가능성을 갖는 v 신생항원 후보를 동정함으로써 동정된다. 점선은 단일 대립유전자 HLA-A*02:01에 대한 현재 최신기술 모델 NETMHCpan에 기초하여 동정된 치료 서브셋을 포함하는 백신과 관련된 환자를 나타낸다. NETMHCpan에 대한 구현 세부사항은 http://www.cbs.dtu.dk/services/NetMHCpan에서 상세히 제공된다. 각각의 환자에 대한 치료 서브셋은 NETMHCpan 모델을 테스트 세트의 서열에 적용하고 가장 높은 추정된 결합 친화성을 갖는 v 신생항원 후보를 동정함으로써 동정된다. 두 플롯의 x-축은 제시 모델에 기초하여 동정된 치료 서브셋에서 제시된 신생항원의 예상된 수를 나타내는 기대 효용 스코어에 기초하여 백신 치료로부터 제외된 환자의 비율을 나타낸다. 기대 효용 스코어는 섹션 X에서 수식 (25)를 참조하여 기재된 바와 같이 결정된다. y-축은 백신에 포함된 적어도 특정 수의 신생항원(1, 2, 또는 3개의 신생항원)을 제시하는 선택된 환자의 비율을 나타낸다.

도 13c에 나타낸 바와 같이, 제시 모델에 기초하여 치료 서브셋을 포함하는 백신과 관련된 환자는 최신기술 모델에 기초하여 치료 서브셋을 포함하는 백신과 관련된 환자보다 유의하게 더 높은 비율로 제시된 신생항원을 함유하는 백신을 받는다. 예를 들어, 우측 플롯에 나타낸 바와 같이, 제시 모델에 기초하여 백신과 관련된 선택된 환자의 80%는 현재 최신기술 모델에 기초하여 백신과 관련된 선택된 환자의 단지 40%에 비해, 백신에서 적어도 하나의 제시된 신생항원을 받는다. 결과는 본원에 기재된 바와 같은 제시 모델이 종양을 치료하기 위한 면역 반응을 도출할 가능성이 있는 백신에 대한 신생항원 후보를 선택하는데 효과적임을 나타낸다.

XI.D. 실시예 7D: 제시 모델을 통해 동정된 백신에 대한 신생항원 제시에 따른 HLA 적용범위의 효과

도 13d는 HLA-A*02:01에 대한 단일 과-대립유전자 제시 모델에 기초하여 동정된 치료 서브셋을 포함하는 백신과 관련된 선택된 환자와 HLA-A*02:01 및 HLA-B*07:02에 대한 두 과-대립유전자 제시 모델에 기초하여 동정된 치료 서브셋을 포함하는 백신과 관련된 선택된 환자 사이의 모의 백신에서 제시된 신생항원의 수를 비교한다. 백신 용량은 v=20 에피토프로 설정된다. 각각의 실험에 대해, 환자는 상이한 치료 서브셋에 기초하여 결정된 기대 효용 스코어에 기초하여 선택된다.

도 13d에서, 실선은 HLA 대립유전자 HLA-A*02:01 및 HLA-B*07:02에 대한 두 제시 모델에 기초하여 치료 서브셋을 포함하는 백신과 관련된 환자를 나타낸다. 각각의 환자에 대한 치료 서브셋은 제시 모델 각각을 테스트 세트의 서열에 적용하고, 가장 높은 제시 가능성을 갖는 v 신생항원 후보를 동정함으로써 동정된다. 점선은 HLA 대립유전자 HLA-A*02:01에 대한 단일 제시 모델에 기초하여 치료 서브셋을 포함하는 백신과 관련된 환자를 나타낸다. 각각의 환자에 대한 치료 서브셋은 단지 단일 HLA 대립유전자에 대한 제시 모델을 테스트 세트의 서열에 적용하고, 가장 높은 제시 가능성을 갖는 v 신생항원 후보를 동정함으로써 동정된다. 실선 플롯의 경우, x-축은 두 제시 모델에 의해 동정된 치료 서브셋에 대한 기대 효용 스코어에 기초하여 백신 치료로부터 제외된 환자의 비율을 나타낸다. 점선 플롯의 경우, x-축은 단일 제시 모델에 의해 동정된 치료 서브셋에 대한 기대 효용 스코어에 기초하여 백신 치료로부터 제외된 환자의 비율을 나타낸다. y-축은 적어도 특정 수의 신생항원(1, 2, 또는 3개의 신생항원)을 제시하는 선택된 환자의 비율을 나타낸다.

도 13d에 나타낸 바와 같이, 두 HLA 대립유전자에 대한 제시 모델에 의해 동정된 치료 서브셋을 포함하는 백신과 관련된 환자는 단일 제시 모델에 의해 동정된 치료 서브셋을 포함하는 백신과 관련된 환자보다 유의하게 더 높은 비율로 신생항원을 제시한다. 결과는 높은 HLA 대립유전자 적용범위를 갖는 제시 모델을 확립하는 것의 중요성을 나타낸다.

XI.E. 실시예 7E: 제시된 신생항원의 돌연변이 부담 vs. 예상된 수에 의해 선택된 환자에 대한 신생항원 제시의 비교

도 13e는 돌연변이 부담에 기초하여 선택된 환자와 기대 효용 스코어에 의해 선택된 환자 사이의 모의 백신에서 제시된 신생항원의 수를 비교한다. 기대 효용 스코어는 v=20 에피토프의 크기를 갖는 제시 모델에 의해 동정된 치료 서브셋에 기초하여 결정된다.

도 13e에서, 실선은 제시 모델에 의해 동정된 치료 서브셋을 포함하는 백신과 관련된 기대 효용 스코어에 기초하여 선택된 환자를 나타낸다. 각각의 환자에 대한 치료 서브셋은 제시 모델을 테스트 세트의 서열에 적용하고, 가장 높은 제시 가능성을 갖는 v=20 신생항원 후보를 동정함으로써 동정된다. 기대 효용 스코어는 섹션 X에서 수식 (25)에 기초하여 동정된 치료 서브셋의 제시 가능성에 기초하여 결정된다. 점선은 제시 모델에 의해 동정된 치료 서브셋을 또한 포함하는 백신과 관련된 돌연변이 부담에 기초하여 선택된 환자를 나타낸다. x-축은 실선 플롯의 경우 기대 효용 스코어에 기초하여 백신 치료로부터 제외된 환자의 비율, 및 점선 플롯의 경우 돌연변이 부담에 기초하여 제외된 환자의 비율을 나타낸다. y-축은 적어도 특정 수의 제시된 신생항원(1, 2, 또는 3개의 신생항원)을 함유하는 백신을 받는 선택된 환자의 비율을 나타낸다.

도 13e에 나타낸 바와 같이, 기대 효용 스코어에 기초하여 선택된 환자는 돌연변이 부담에 기초하여 선택된 환자보다 더 높은 비율로 제시된 신생항원을 함유하는 백신을 받는다. 그러나, 돌연변이 부담에 기초하여 선택된 환자는 선택되지 않은 환자보다 더 높은 비율로 제시된 신생항원을 함유하는 백신을 받는다. 따라서, 기대 효용 스코어가 보다 효과적이기는 하지만, 돌연변이 부담은 성공적인 신생항원 백신 치료를 위한 효과적인 환자 선택 기준이다.

XII. 실시예 8: 동정된 질량 분광법 데이터에 대한 질량 분광법-훈련 모델의 평가

종양 세포에 의한 HLA 펩타이드 제시는 항-종양 면역력에 대한 주요 요건이므로^91,96,97, 쌍형성 부류 I HLA 펩타이드 서열, HLA 유형 및 전사체 RNA-seq(방법)를 사용한 인간 종양 및 정상 조직 샘플의 대규모(N=74명 환자) 통합 데이터세트는 이들 및 공개적으로 이용가능한 데이터를 사용하는 것을 목표로 생성하여^92,98,99 인간 암에서 항원 제시를 예측하기 위한 신규 심층 학습 모델¹⁰⁰을 훈련시켰다. 샘플은 면역요법 개발을 위한 여러 관심 종양 유형 중에서 조직 이용가능성에 기초하여 선택하였다. 질량 분광법은 펩타이드-수준 FDR<0.1(범위 344-11,301개)에서 샘플 당 평균 3,704개 펩타이드를 동정하였다. 펩타이드는 특징적인 부류 I HLA 길이 분포를 따랐다: 길이 8-15aa, 모달 길이 9 함유(펩타이드의 56%). 이전 보고서와 일치하게, 대복수의 펩타이드(중앙값 79%)는 MHCflurry에 의해 표준 500 nM 친화성 임계치에서 적어도 하나의 환자 HLA 대립유전자에 결합하는 것으로 예측하였지만⁹⁰, 샘플에 걸쳐 실질적인 가변성이 있는 것으로 예측하였다(예를 들어, 하나의 샘플에서 펩타이드의 33%는 >500nM의 예측된 친화성을 갖는다). 50nM의 통상적으로 사용된¹⁰¹ "강한 결합제" 임계치는 단지 제시된 펩타이드의 42%의 중앙값을 포획하였다. 전사체 서열분석은 샘플 당 평균 131M의 고유 판독물을 산출하였고, 유전자의 68%는 적어도 하나의 샘플에서 적어도 1개의 백만 당 전사체(TPM) 수준으로 발현되었으며, 이는 최대 수의 유전자의 발현을 관찰하기 위해 크고 다양한 샘플 세트의 값을 강조한다. HLA에 의한 펩타이드 제시는 mRNA 발현과 강하게 상관관계가 있었다. RNA 발현 또는 서열 단독의 차이에 의해 설명될 수 없는 펩타이드 제시 비율에서의 현저하고 재현가능한 유전자-대-유전자 차이가 관찰되었다. 관찰된 HLA 유형은 우세하게는 유럽-조상 환자 그룹으로부터의 시료에 대한 기대치와 매칭되었다.

이들 및 공개적으로 이용가능한 HLA 펩타이드 데이터를 사용하여^92,98,99, 신경 네트워크(NN) 모델을 훈련시켜 HLA 항원 제시를 예측하였다. 각각의 펩타이드가 6개의 HLA 대립유전자 중 임의의 하나에 의해 제시될 수 있는 종양 질량 분광법 데이터로부터 대립유전자-특이적 모델을 학습하기 위해, 대립유전자-펩타이드 맵핑 및 대립유전자-특이적 제시 모티프(방법)를 공동으로 학습할 수 있는 신규 네트워크 구조를 개발하였다. 각각의 환자에 대해, 양성-표지된 데이터 포인트는 질량 분광법을 통해 검출된 펩타이드였고, 음성-표지된 데이터 포인트는 해당 샘플에서 질량 분광법을 통해 검출되지 않은 참조 프로테옴(SwissProt)으로부터의 펩타이드였다. 데이터는 훈련, 검증 및 테스팅 세트(방법)로 분할하였다. 훈련 세트는 101개 샘플(본 연구에서 새롭게 기재된 것 69개 및 이전에 공개된 것 32개)로부터 142,844개의 HLA 제시된 펩타이드(FDR<~0.02)로 이루어졌다. 검증 세트(조기 중지에 사용됨)는 동일한 101개 샘플로부터 18,004개의 제시된 펩타이드로 이루어졌다. 2개의 질량 분광법 데이터세트를 테스팅에 사용하였다: (1) 훈련 데이터에서 동정된 5개의 추가 종양 샘플(폐 2개, 결장 2개, 난소 1개)로부터 571개의 제시된 펩타이드로 이루어진 종양 샘플 테스트 세트, 및 (2) 훈련 데이터에 포함된 단일-대립유전자 펩타이드의 위치에 인접하지만 구별되는 게놈 위치 윈도우(블록)로부터 2,128개의 제시된 펩타이드로 이루어진 단일-대립유전자 세포주 테스트 세트(훈련/테스트 분할에 대한 추가 세부사항에 대해 방법 참조).

훈련 데이터는 53개의 HLA 대립유전자에 대한 예측 모델을 동정하였다. 이전 작업^92,104과는 대조적으로, 이들 모델은 복수의 길이의 펩타이드에 대한 각각의 서열 위치에서 HLA 제시의 의존성을 포획하였다. 상기 모델은 또한 가장 낮게-발현된, 최소 제시-경향성 유전자와 가장 높게 발현된, 최대 제시-경향성 유전자 사이의 제시 비율에서 최대 ~60-배 차이를 산출하기 위해 독립적으로 조합한 제시의 mRNA 존재비 및 학습된 과-유전자 성향과 함께, 유전자 RNA 발현 및 유전자-특이적 제시 성향에 대한 중요한 의존성을 정확하게 학습하였다. 예측된 결합 친화성(시험된 대립유전자 10개 중 8개에 대해 p<0.05)을 제어한 후에도, 모델이 IEDB⁸⁸에서 HLA/펩타이드 복합체의 측정된 안정성(10개 대립유전자에 대해 p<1e-10)을 예측함을 추가로 관찰하였다. 종합적으로, 이들 특징은 면역원성 HLA 부류 I 펩타이드의 개선된 예측을 위한 기초를 형성한다.

홀드-아웃 질량 분석법 테스트 세트에 대한 HLA 제시의 예측자로서 이 NN 모델의 성능을 평가하였다. 구체적으로, 도 14는 각각의 모델이 5 개의 상이한 홀드-아웃 테스트 샘플에서 시험될 때, MS 모델의 상이한 버전의 40 % 리콜에서 양의 예측 값 (PPV)과 질량 분석법 (MixMHCPred)으로부터 용리된 펩타이드 모델링에 대한 최근에 공개된 접근법을 비교한다. 도 14는 또한 5 개의 테스트 샘플에 대한 모델의 40 % 리콜에서의 평균 PPV를 도시한다.

도 14에서 테스트된 모델은 (왼쪽에서 오른쪽으로): "전체 MS 모델": 방법에 기술된 전체 NN 모델; "MS 모델, 측접 서열 없음": 측접 서열 특징이 제거된 것을 제외하고는 전체 NN 모델과 동일; "MS 모델, 측접 서열 또는 과-유전자 파라미터 없음": 측접 서열 또는 과-유전자 파라미터 특징이 제거된 것을 제외하고는 전체 NN 모델과 동일; "펩타이드 단독 MS 모델, 모든 길이가 공동으로 훈련됨": 펩타이드 서열 및 HLA 유형만이 사용되는 특징을 제외하고는 전체 NN 모델과 동일; "펩타이드 단독 MS 모델, 각각의 길이는 개별적으로 훈련됨": 이 모델의 경우, 모델 구조는 9 및 10mer에 대한 별도의 모델이 훈련된 것을 제외하고는 펩타이드 단독 MS 모델과 동일하였다; "선형 펩타이드-단독 MS 모델 (조립 포함)": 각각의 펩타이드 길이가 개별적으로 훈련된 펩타이드-단독 MS 모델과 동일; 신경망을 사용하여 펩타이드 서열을 모델링하는 것을 제외하고는, 전체 모델에 사용된 동일한 최적화 절차를 사용하여 훈련되고 방법에 기술된 선형 모델의 앙상블이 사용되었다; "MixMHCPred 1.1"은 기본 설정의 MixMHCPred이다. "결합 친화도"는 MHCflurry 1.2.0이다.

"완전 MS 모델", "MS 모델, 측접 서열 없음", "MS 모델, 측접 서열 또는 과-유전자 파라미터 없음", "펩타이드-단독 MS 모델, 모든 길이가 공동으로 훈련됨", "펩타이드-단독 MS 모델, 모든 길이가 별개로 훈련됨", 및 "선형 펩타이드-단독 MS 모델"은 모두 상기 기재된 바와 같은 질량 분광법 데이터에 대해 훈련된 신경 네트워크 모델이다. 그러나, 각각의 모델은 샘플의 상이한 특징을 사용하여 훈련 및 테스트된다. "MixMHCPred 1.1" 모델 및 "결합 친화성" 모델은 HLA 제시된 펩타이드를 모델링하는 조기 접근법¹⁰⁴이다. MixMHCPred가 현재 9 및 10 이외의 길이의 펩타이드를 모델링하지 않기 때문에 9 및 10mer만이 비교에 사용되었다. 마지막 5 개의 모델 ("펩타이드 단독 MS 모델, "펩타이드 친화성"을 통해 모든 길이가 공동으로 훈련됨")이 동일한 입력 값을 갖는다: 펩타이드 서열과 HLA 유형만. 특히, 마지막 5 개 모델 중 어느 것도 RNA 풍부를 사용하여 예측을 하지 않는다.

최고 성능의 펩타이드-단독 모델 ("펩타이드-단독 MS 모델, 모든 길이는 공동 훈련됨")은 40 % 리콜에서 평균 PPV를 0.41로 달성하는 한편, 질량 분석 데이터에 대해 훈련된 최악의 펩타이드-단독 모델 ("선형 펩타이드 단독 MS 모델")은 단지 28 %의 평균 PPV (18 %에서 MixMHCPred 1.1의 평균 PPV보다 약간 높음)를 달성하여 펩타이드 서열의 개선된 NN 모델링의 값을 강조한다. MixMHCPred 1.1은 선형 펩타이드 단독 MS 모델과는 다른 데이터에 대해 학습되지만 많은 동일한 모델링 특성을 갖는다 (예: 각 펩타이드 길이에 대한 모델이 개별적으로 학습되는 선형 모델이다).

전반적으로, NN 모델은 HLA 펩타이드 제시의 유의하게 개선된 예측을 달성하였으며, PPV는 종양 테스트 세트에서 표준 결합 친화성 + 유전자 발현보다 최대 9-배 더 높다. MS-기반 NN 모델의 큰 PPV 이점은 다양한 리콜 임계치에 걸쳐 지속되고 통계적으로 유의하였다(모든 종양 샘플에 대해 p<10^-6). HLA 펩타이드 제시에 대한 표준 결합 친화성 + 유전자 발현의 양성 예측값은 이전 추정치^87,93에 따라, 6% 정도에 달했다. 그러나, 특히 이 ~6% PPV는 여전히 기준 유병률에 비해 > 100-배 풍부화를 나타내는데, 펩타이드의 작은 비율만이 제시된 바와 같이 검출되기 때문이다(예를 들어, 종양 MS 테스트 데이터세트에서 2500 중 ~1).

입력값으로 HLA 유형 및 펩타이드 서열만을 사용하는 질량 분광법 데이터에 대해 훈련된 감소된 모델을 완전 MS 모델과 비교함으로써, 결합 친화성 예측에 비해 PPV에서 ~30%의 증가가 질량 분광법으로 포획될 수 있지만 결합 친화성 검정으로는 그렇지 않은 펩타이드-외인성 특징(RNA 존재비, 측접 서열, 과-유전자 파라미터)의 모델링으로부터 비롯된다는 것을 결정하였다. 나머지 ~70%의 증가는 펩타이드 서열의 개선된 모델링으로부터 비롯된다. 이는 훈련 데이터세트의 특성(HLA 제시된 펩타이드)일 뿐만 아니라, 또한 인간 종양에서 HLA 제시된 펩타이드를 모델링하는 조기 접근법¹⁰⁴을 능가함에 따라, 개선된 성능에 기여한 전반적인 모델 구조였다. 새로운 모델 아키텍처는 결합 친화성 예측 또는 하드-클러스터링 접근법^104-106을 사용하여 알려진 제시 대립유전자에 대해 펩타이드의 사전(ex ante) 할당을 필요로 하지 않는 엔드-투-엔드(end-to-end) 훈련 프로세스를 통해 대립유전자-특이적 모델의 학습이 가능하였다. 중요하게도, 선형성, 또는 각각의 펩타이드 길이의 개별 고려와 같은 디컨볼루션(deconvolution)에 대한 전제 조건¹⁰⁴으로 대립유전자-특이적 서브-모델에 대한 정확도-감소 제한을 부과하는 것을 피했다. 완전 모델은 여러 단순화된 모델 및 이들 제한을 부과하는 이전에 공개된 접근법을 능가한다.

XIII. 실시예 9 : 제시 핫스팟 모델링을 포함한 실험 결과

HLA 제시 모델링에서 제시 핫스팟 파라미터를 사용하는 이점을 구체적으로 평가하기 위해, 제시 핫스팟 파라미터를 포함하는 신경망 제시 모델의 성능을 제시 핫스팟 파라미터를 포함하지 않는 신경망 제시 모델의 성능과 비교하였다. 기본 신경망 구조는 두 모델에서 동일했으며 섹션 VII에서 설명한 제시 모델과 동일하였다. 간단히 말하면, 모델은 펩타이드 및 측접 아미노산 서열 파라미터, RNA-서열 전사 데이터 (TPM), 단백질 패밀리 데이터, 샘플 당 식별 및 HLA-A, B, C 유형을 포함하였다. 각 모델에는 5 개의 네트워크 앙상블이 사용되었다. 제시된 핫스팟 파라미터를 포함하는 모델은 VIII.B.3.에서 전술한 식 12c를 사용하였으며, 유전자 당 단백질 블록 크기는 10이고 펩타이드 길이는 8-12이다.

두 가지 모델을 상기 섹션 XII에 기술된 질량 분석 데이터세트를 사용하여 실험을 수행함으로써 비교하였다. 구체적으로, 경쟁 모델을 공정하게 평가할 목적으로 모델 훈련 및 검증에서 5 개의 샘플을 홀드-아웃 하였다. 나머지 샘플은 모델 훈련의 경우 90 %와 훈련의 유효성 검사의 경우 10 %로 무작위로 나눈다.

도 15a는 모델이 5개의 홀드-아웃 테스트 샘플에서 테스트 될 때, 제시 핫스팟 파라미터를 사용한 제시 모델과 제시 핫스팟 파라미터를 사용하지 않은 제시 모델의 리콜에 대한 평균 양의 예측 값 (PPV)을 비교한다. 평균 정밀도가 제시 핫스팟 파라미터가 있는 경우 0.82이고, 제시 핫스팟 파라미터가 없는 경우 0.77인, 제시 핫스팟 파라미터를 통합한 모델은 각 샘플에 개별적으로 제시 핫스팟 파라미터를 포함하지 않은 모델보다 성능이 우수했다.

도 15b-f는 5 개의 홀드아웃 테스트 샘플 각각에서 모델이 테스트 될 때 제시 핫스팟 파라미터를 사용한 제시 모델과 제시 핫스팟 파라미터를 사용하지 않은 제시 모델에 대한 정밀도 및 리콜 곡선을 비교한다.

XIV. 실시예 10: T-세포 에피토프를 동정하는 제시 핫스팟 파라미터의 평가

인간 종양 CD8 T- 세포 에피토프 (즉, 면역 요법 표적)를 동정하기 위해 HLA 제시를 모델링하기 위해 제시 핫스팟 파라미터를 사용하는 이점도 직접 테스트되었다. 시험 데이터세트는 T-세포에 의해 인식되고 종양 세포 표면상의 HLA에 의해 제시되는 펩타이드를 함유해야 하므로, 이 평가에 적절한 시험 데이터 세트를 정의하는 것은 어렵다. 또한, 공식적인 성능 평가는 양성-표지된 (즉, T-세포 인식) 펩타이드뿐만 아니라 충분한 수의 음성-표지된 (즉, 시험되었지만 인식되지 않은) 펩타이드를 요구한다. 질량 분석 데이터세트는 종양 제시를 다루지만 T-세포 인식은 다루지 않는다; 반대로, 백신 접종 후 프라이밍 또는 T-세포 분석은 T-세포 인식을 다루지만 종양 제시는 다루지 않는다.

적절한 데이터세트를 얻기 위해, 본 발명자들은 요구된 기준을 만족하는 5 개의 최근 연구로부터 공개된 CD8 T-세포 에피토프를 수집하였다: 연구 A⁹⁶은 위장 종양을 가진 9 명의 환자에서 TIL을 검사하고, 자가 DC에서 탠덤 미니유전자 (TMG) 방법을 사용하여 IFN-y ELISPOT에 의해 테스트된, 12/1,053 체세포 SNV 돌연변이의 T- 세포 인식을 보고하였다. 연구 B⁸⁴는 또한 TMG를 사용하였고 5 명의 흑색종 환자로부터의 CD8+PD-1+순환 림프구에 의한 6/574 SNV의 T-세포 인식을 보고하였다. 연구 C⁹⁷은 펄스 펩타이드 자극을 사용하여 3 명의 흑색종 환자로부터 TIL을 평가하였고 5/381 시험된 SNV 돌연변이에 대한 반응을 발견하였다. 연구 D¹⁰⁸은 TMG 분석 및 최소 에피토프 펩타이드로 펄스를 조합하여 한 유방암 환자로부터 TIL을 평가하고 2/62 SNV의 인식을 보고하였다. 연구 E¹⁶⁰은 52개의 TSNA를 가진 국립 암 연구소의 17 명의 환자에서 TIL을 평가하였다. 조합된 데이터세트는 기존 T-세포 반응을 갖는 75 TSNA를 포함하여 33 명의 환자로부터 4,843개의 분석된 SNV를 포함하였다. 중요하게도, 데이터세트는 종양-침윤 림프구에 의한 신생항원 인식으로 주로 포함되었기 때문에, 이 데이터세트에 대한 성공적인 예측은 모델이 이전 섹션에서와 같이 T-세포를 프라이밍할 수 있는 신생항원뿐만 아니라 종양에 의해 T 세포에 제시된 신생항원을 동정할 능력을 가짐을 제시한다.

개인화된 면역요법에 대한 항원의 선택을 모의하기 위해, 체세포 돌연변이는 두 가지 방법을 사용하여 제시 가능성의 순서로 순위를 매겼다: (1) 핫스팟 특징을 포함하는 MS 모델 (블록 크기 n = 10의 방정식 12c에 기술된 바와 같이) 및 (2) 핫스팟 특징이 없는 기존 MS 모델. 항원-특이적 면역요법의 용량이 표적화되는 특이성의 수로 제한되기 때문에 (예를 들어, 현재 개인화된 백신은 ~10-20 개의 돌연변이를 암호화한다^{6, 81-82}), 각 환자에 대한 상위 5, 10, 20 또는 30 등급 펩타이드에서 기존의 T-세포 반응의 수를 세어 예측 방법을 비교하였다. 결과는 도 16에 도시되었다.

구체적으로, 도 16은 적어도 하나의 기존 T- 세포 반응을 갖는 환자로부터 채취한 시험 샘플을 포함하는 시험 세트에 대한, 제시 핫스팟 파라미터를 사용하는 제시 모델 및 제시 핫스팟을 사용하지 않는 제시 모델에 의해 동정된 상위 5, 10, 20 및 30 등급 펩타이드에 대해 T-세포에 의해 인식된 체세포 돌연변이에 걸친 펩타이드의 비율을 비교한다. 도 16에 도시된 바와 같이, 핫스팟 특징을 갖는 모델은 특징이 없는 모델과 비교하여 수행되었으며, 두 모델 모두 상위 20 및 10 등급 펩타이드에서 각각 45 및 31 T-세포 반응을 예측하였다. 그러나, 핫스팟 모델은 상위 30 개 및 상위 5 개의 펩타이드를 예측할 때 개선점을 보였으며, 핫스팟 모델은 각각 6 개 및 4 개의 T- 세포 반응을 더 포함하였다.

XIII.A. 데이터

본 발명자들은 Gros 등⁸⁴, Tran 등¹⁴⁰, Stronen 등¹⁴¹ 및 Zacharakis 등 및

등¹⁶⁰의 보충 정보로부터 돌연변이 해독(calling), HLA 유형 및 T-세포 인식 데이터를 수득하였다.

돌연변이-수준 분석의 경우(도 16), Gros 등, Tran 등 및 Zacharakis 등¹⁰⁸, 및

등¹⁶⁰의 양성-표지된 데이터포인트는 TMG 검정 또는 최소 에피토프 펩타이드-펄싱 검정 둘 다에서 환자 T-세포에 의해 인식된 돌연변이였다. 음성-표지된 데이터포인트는 TMG 검정에서 테스트된 모든 다른 돌연변이였다. Stronen 등의 경우, 양성 표지된 돌연변이는 적어도 하나의 인식된 펩타이드에 의해 스패닝된 돌연변이였고, 음성 데이터포인트는 테스트되었지만 테트라머 검정에서는 인식되지 않은 모든 돌연변이였다. Gros, Tran 및 Zacharakis 데이터에 대해, 돌연변이된-25mer TMG 검정이 돌연변이를 스패닝하는 모든 펩타이드의 T-세포 인식을 테스트함에 따라, 제시 확률을 합산하거나 모든 돌연변이-스패닝 펩타이드에 걸친 최소 결합 친화성을 취함으로써 돌연변이 순위를 매겼다. Stronen 데이터에 대해, 돌연변이는 제시 확률을 합산하거나 테트라머 검정에서 테스트된 모든 돌연변이-스패닝 펩타이드에 걸친 최소 결합 친화성을 취함으로써 돌연변이 순위를 매겼다. 돌연변이 및 특징에 대한 전체 목록은 보충 표 1에서 이용할 수 있다.

에피토프-수준 분석의 경우, 양성-표지된 데이터포인트는 모두 펩타이드-펄싱 또는 테트라머 검정에서 환자 T-세포에 의해 인식된 모든 최소 에피토프였고, 음성 데이터포인트는 모두 펩타이드-펄싱 또는 테트라머 검정에서 T-세포에 의해 인식되지 않은 모든 최소 에피토프 및 환자 T-세포에 의해 인식되지 않았던 테스트된 TMG로부터의 모든 돌연변이-스패닝 펩타이드였다. Gros 등, Tran 등 및 Zacharakis 등의 경우에 이들 펩타이드의 T-세포 인식 상태는 실험적으로 결정되지 않았기 때문에, 펩타이드-펄싱 검정을 통해 테스트되지 않았던 TMG 분석에서 인식된 돌연변이를 스패닝하는 최소 에피토프 펩타이드는 분석으로부터 제거하였다.

XV. 실시예 11: 암 환자에서 신생항원-반응성 T-세포의 동정

이 실시예는 개선된 예측이 일상적인 환자 샘플로부터 신생항원 동정을 가능하게 할 수 있다는 것을 입증한다. 이를 위해, 항-PD(L)1 요법을 받고 있는 전이성 NSCLC가 있는 9명의 환자로부터 보관된 FFPE 종양 생검 및 5-30ml의 말초 혈액을 분석하였다(보충 표 2: 도 17a-c에서 연구된 N=9 환자에 대한 환자 인구통계 및 치료 정보. 주요 분야는 종양 단계 및 하위유형, 받았던 항-PD1 요법, 및 NGS 결과의 요약을 포함한다.). 종양 전체 엑솜 서열분석, 종양 전사체 서열분석, 및 매칭된 정상 엑솜 서열분석은 환자 당 평균 198개의 체세포 돌연변이(SNV 및 짧은 삽입-결실)를 초래하였으며, 이 중 평균 118개를 표시하였다(방법, 보충 표 2). 완전 MS 모델을 적용하여 기존의 항-종양 T-세포 반응에 대한 테스팅을 위해 환자 당 20개의 네오에피토프에 우선순위를 매겼다. 가능한 CD8 반응에 대한 분석에 초점을 맞추기 위해, 우선순위를 매긴 펩타이드를 8-11mer 최소 에피토프로 합성하고(방법), 이어서 말초 혈액 단핵 세포(PBMC)를 짧은 시험관내 자극(IVS) 배양물에서 합성된 펩타이드와 함께 배양하여 신생항원-반응성 T-세포를 확장시켰다(보충 표 3). 2주 후 우선순위를 매긴 네오에피토프에 대해 IFN-감마 ELISpot을 사용하여 항원-특이적 T-세포의 존재를 평가하였다. 충분한 PBMC를 이용할 수 있는 7명의 환자에서, 인식된 특이적 항원을 완전히 또는 부분적으로 디컨볼브(deconvolve)하도록 별개의 실험을 또한 수행하였다. 결과는 도 17a-c 및 18a-21에 도시된다.

도 17a는 9명의 환자에 대해 환자-특이적 신생항원 펩타이드 풀에 대한 T-세포 반응의 검출을 도시한다. 각각의 환자에 대해, 예측된 신생항원을 모델 순위 및 임의의 서열 상동성에 따라 각각 10개 펩타이드의 2개 풀로 조합하였다(상동 펩타이드를 상이한 풀로 분리하였다). 이어서, 각각의 환자에 대해, 환자에 대해 시험관내 확장된 PBMC를 IFN-감마 ELISpot에서 2개의 환자-특이적 신생항원 펩타이드 풀로 자극하였다. 도 17a의 데이터는 배경(상응하는 DMSO 음성 대조군)이 차감된 10⁵개의 플레이팅된 세포 당 스폿 형성 단위(SFU)로 제시된다. 배경 측정(DMSO 음성 대조군)은 도 21에 도시되어 있다. 단일 웰(환자 1-038-001, CU02, CU03 및 1-050-001)의 반응 또는 동계 펩타이드 풀 #1 및 #2에 대한 평균 및 표준 편차(모든 다른 환자)를 갖는 반복은 환자 1-038-001, 1-050-001, 1-001-002, CU04, 1-024-001, 1-024-002 및 CU05에 대해 제시된다. 환자 CU02 및 CU03의 경우, 세포 수는 특이적 펩타이드 풀 #1에 대해서만 테스팅을 허용하였다. 배경보다 >2-배 증가 값을 갖는 샘플은 양성으로 간주되었고 별표로 지정된다(반응성 공여자는 환자 1-038-001, CU04, 1-024-001, 1-024-002, 및 CU02를 포함한다). 비반응성 공여자는 환자 1-050-001, 1-001-002, CU05, 및 CU03을 포함한다. 도 17c는 IFN-감마 ELISpot에서 DMSO 음성 대조군, PHA 양성 대조군, CU04-특이적 신생항원 펩타이드 풀 #1, CU04-특이적 펩타이드 1, CU04-특이적 펩타이드 6, 및 CU04-특이적 펩타이드 8로 자극된, 환자 CU04로부터의 시험관내 확장된 PBMC를 함유하는 ELISpot 웰의 사진을 도시한다.

도 18a-b는 HLA-매칭된 건강한 공여자에서 환자 신생항원을 사용한 대조군 실험으로부터의 결과를 도시한다. 이들 실험의 결과는 시험관내 배양 조건이 시험관내 드 노보(de novo) 프라이밍을 가능하게 하기 보다는, 단지 기존의 생체내 프라이밍된 기억 T-세포만을 확장하였음을 입증한다.

도 19은 도 17a에 도시된 각각의 공여자 및 각각의 시험관내 확장에 대해 PHA 양성 대조군에 대한 T-세포 반응의 검출을 도시한다. 도 17a에서 각각의 공여자 및 각각의 시험관내 확장에 대해, 최대 T-세포 활성화를 위해 시험관내 확장된 환자 PBMC를 PHA로 자극하였다. 도 19의 데이터는 배경(상응하는 DMSO 음성 대조군) 차감된 10⁵개의 플레이팅된 세포 당 스폿 형성 단위(SFU)로 제시된다. 단일 웰의 반응 또는 생물학적 반복은 환자 1-038-001, 1-050-001, 1-001-002, CU04, 1-024-001, 1-024-002, CU05 및 CU03에 대해 제시된다. 환자 CU02에 대해 PHA를 사용한 테스팅은 수행하지 않았다. 펩타이드 풀 #1에 대한 양성 반응(도 17a)은 생존가능하고 기능적인 T-세포를 나타내므로, 환자 CU02로부터의 세포를 분석에 포함시켰다. 도 17a에 도시된 바와 같이, 펩타이드 풀에 반응성인 공여자는 환자 1-038-001, CU04, 1-024-001, 및 1-024-002를 포함한다. 또한 도 17a에 도시된 바와 같이, 펩타이드 풀에 비반응성인 공여자는 환자 1-050-001, 1-001-002, CU05, 및 CU03을 포함한다.

도 20a는 환자 CU04에 대해 풀 #2에서 각각의 개별 환자-특이적 신생항원 펩타이드에 대한 T-세포 반응의 검출을 도시한다. 또한 도 20a는 환자 CU04에 대해 PHA 양성 대조군에 대한 T-세포 반응의 검출을 도시한다. (이는 양성 대조군 데이터로 또한 도 19에 도시되어 있다.) 환자 CU04의 경우, 환자에 대해 시험관내 확장된 PBMC를 환자 CU04에 대해 풀 #2로부터의 환자-특이적 개별 신생항원 펩타이드로 IFN-감마 ELISpot에서 자극하였다. 환자에 대해 시험관내 확장된 PBMC를 또한 양성 대조군으로서 PHA로 IFN-감마 ELISpot에서 자극하였다. 데이터는 배경(상응하는 DMSO 음성 대조군) 차감된 10⁵개의 플레이팅된 세포 당 스폿 형성 단위(SFU)로 제시된다.

도 20b는 환자 CU04의 3회 방문 각각 및 환자 1-024-002의 2회 방문 각각에 대해 개별 환자-특이적 신생항원 펩타이드에 대한 T-세포 반응의 검출을 도시하며, 각각의 방문은 상이한 시점에 발생한다. 두 환자의 경우, 환자에 대해 시험관내 확장된 PBMC를 환자-특이적 개별 신생항원 펩타이드로 IFN-감마 ELISpot에서 자극하였다. 각각의 환자에 대해, 각각의 방문에 대한 데이터는 배경(상응하는 DMSO 대조군) 차감된 10⁵개의 플레이팅된 세포 당 누적(추가된) 스폿 형성 단위(SFU)로 제시된다. 환자 CU04에 대한 데이터는 3회 방문으로부터 배경 차감된 누적 SFU로 제시된다. 환자 CU04의 경우, 배경 차감된 SFU는 초기 방문(T0) 및 초기 방문(T0) 후 2개월(T0 + 2 개월) 및 14 개월(T0 + 14 개월) 후속 방문으로 제시된다. 환자 1-024-002에 대한 데이터는 2회 방문으로부터의 배경 차감된 누적 SFU로 제시된다. 환자 1-024-002의 경우, 배경 차감된 SFU는 초기 방문(T0) 및 초기 방문(T0) 후 1개월 후속 방문(T0 + 1 개월)으로 제시된다. 배경 보다 >2-배 증가 값을 갖는 샘플은 양성으로 고려되었고 별표로 지정된다.

도 20c는 환자 CU04의 2회 방문 각각 및 환자 1-024-002의 2회 방문 각각에 대해 개별 환자-특이적 신생항원 펩타이드 및 환자-특이적 신생항원 펩타이드 풀에 대한 T-세포 반응의 검출을 도시하며, 각각의 방문은 상이한 시점에 발생한다. 두 환자의 경우, 환자에 대해 시험관내 확장된 PBMC를 환자-특이적 개별 신생항원 펩타이드 뿐만 아니라 환자-특이적 신생항원 펩타이드 풀로 IFN-감마 ELISpot에서 자극하였다. 구체적으로, 환자 CU04의 경우, 환자 CU04에 대한 시험관내 확장된 PBMC를 CU04-특이적 개별 신생항원 펩타이드 6 및 8 뿐만 아니라 CU04-특이적 신생항원 펩타이드 풀로 IFN-감마 ELISpot에서 자극하였고, 환자 1-024-002의 경우, 환자 1-024-002에 대한 시험관내 확장된 PBMC를 1-024-002-특이적 개별 신생항원 펩타이드 16 뿐만 아니라 1-024-002-특이적 신생항원 펩타이드 풀로 IFN-감마 ELISpot에서 자극하였다. 도 20c의 데이터는 평균 및 범위를 갖는 각각의 기술적 반복에 대해 배경(상응하는 DMSO 대조군) 차감된 10⁵개의 플레이팅된 세포 당 스폿 형성 단위(SFU)로 제시된다. 환자 CU04에 대한 데이터는 2회 방문으로부터 배경 차감된 SFU로 제시된다. 환자 CU04의 경우, 배경 차감된 SFU는 초기 방문(T0; 기술적 3회 반복) 및 초기 방문(T0) 후 2 개월에 후속 방문(T0 + 2 개월; 기술적 3회 반복)으로 제시된다. 환자 1-024-002에 대한 데이터는 2회 방문으로부터 배경 차감된 SFU로 제시된다. 환자 1-024-002의 경우, 배경 차감된 SFU는 초기 방문(T0; 기술적 3회 반복) 및 초기 방문(T0) 후 1개월 후속 방문(T0 + 1 개월; 기술적 2회 반복, 환자 1-024-002-특이적 신생항원 펩타이드 풀로 자극된 샘플 제외)으로 제시된다.

도 21는 도 17a의 환자에 대해 2개의 환자-특이적 신생항원 펩타이드 풀 및 DMSO 음성 대조군에 대한 T-세포 반응의 검출을 도시한다. 각각의 환자의 경우, 환자에 대해 시험관내 확장된 PBMC를 IFN-감마 ELISpot에서 2개의 환자-특이적 신생항원 펩타이드 풀로 자극하였다. 각각의 공여자 및 각각의 시험관내 확장의 경우, 시험관내 확장된 환자 PBMC를 또한 IFN-감마 ELISpot에서 음성 대조군으로서 DMSO로 자극하였다. 도 21의 데이터는 환자-특이적 신생항원 펩타이드 풀 및 상응하는 DMSO 대조군에 대해 배경(상응하는 DMSO 음성 대조군) 포함된 10⁵개의 플레이팅된 세포 당 스폿 형성 단위(SFU)로 제시된다. 단일 웰(1-038-001, CU02, CU03 및 1-050-001)의 반응 또는 동계 펩타이드 풀 #1 및 #2에 대한 생물학적 2회 반복의 평균 표준 편차(모든 다른 샘플)는 환자 1-038-001, 1-050-001, 1-001-002, CU04, 1-024-001, 1-024-002 및 CU05에 대해 제시된다. 환자 CU02 및 CU03의 경우, 세포 수는 특이적 펩타이드 풀 #1에 대해서만 테스팅을 허용하였다. 배경보다 >2-배 증가 값을 갖는 샘플은 양성으로 간주되었고 별표로 지정된다(반응성 공여자는 환자 1-038-001, CU04, 1-024-001, 1-024-002, 및 CU02를 포함한다). 비반응성 공여자는 환자 1-050-001, 1-001-002, CU05, 및 CU03을 포함한다.

도 18a-b와 관련하여 상기 간략하게 논의된 바와 같이, 시험관내 배양 조건이 시험관내 드 노보 프라이밍을 가능하게 하기 보다는, 기존의 생체내 프라이밍된 기억 T-세포만을 확장하였다는 것을 검증하기 위해, 일련의 대조군 실험을 HLA-매칭된 건강한 공여자에서 신생항원으로 수행하였다. 이들 실험의 결과는 도 18a-b 및 보충 표 5에 도시된다. 이들 실험의 결과는 IVS 배양 기술을 사용하여 건강한 공여자에서 드 노보 프라이밍의 부재 및 검출가능한 신생항원-특이적 T-세포 반응의 부재를 동정하였다.

대조적으로, IFN-감마 ELISpot을 사용하여 환자-특이적 펩타이드 풀(도 17a 및 19-21)로 테스트된 환자의 대다수(5/9, 56%)에서 기존의 신생항원-반응성 T-세포를 동정하였다. 세포 수가 개별 신생항원 동계 펩타이드의 완전 또는 부분 테스팅을 허용했던 7명의 환자 중, 4명의 환자가 테스트된 신생항원 펩타이드 중 적어도 하나에 반응하였고, 이들 환자 모두 상응하는 풀 반응을 가졌다(도 17b). 개별 신생항원으로 테스트된 나머지 3명의 환자(환자 1-001-002, 1-050-001 및 CU05)는 단일 펩타이드에 대하여 검출가능한 반응이 없었으며(데이터 제시되지 않음), 신생항원 풀에 대하여 이들 환자에 대해 보여진 반응이 없음을 동정하였다(도 17a). 4명의 반응성 환자 중에서, 단일 방문으로부터의 샘플은 반응이 있는 2명의 환자(환자 1-024-001 및 1-038-001)에 대해 이용가능한 반면, 복수의 방문으로부터 샘플은 반응이 있는 다른 2명의 환자(CU04 및 1-024-002)에 대해 이용가능하였다. 복수의 방문으로부터 샘플을 가진 2명의 환자에 대해, 3회 방문(환자 CU04) 또는 2회 방문(환자 1-024-002)으로부터의 누적(추가된) 스폿 형성 단위(SFU)는 도 17b에 도시되어 있고 도 20b에서 방문별로 구분되어 있다. 또한 동일한 방문으로부터 추가 PBMC 샘플은 환자 1-024-002 및 CU04에 대해 이용가능하였고, 반복 IVS 배양 및 ELISpot은 환자-특이적 신생항원에 대한 반응을 동정하였다(도 20c).

전반적으로, 적어도 하나의 T-세포 인식된 네오에피토프가 도 17a에서 10개의 펩타이드의 풀에 대한 반응에 의해 제시된 바와 같이 동정된 환자 중에서, 인식된 네오에피토프의 수는 환자 당 평균적으로 적어도 2개였다(5명의 환자에서 동정된 최소 10개의 에피토프, 1개의 인식된 펩타이드로 디컨볼브될 수 없는 인식된 풀을 계수함). ELISpot에 의해 IFN-감마 반응을 테스트하는 것 이외에도, 또한 배양 상청액을 ELISA에 의해 그랜자임 B에 대해 테스트하고 MSD 시토카인 멀티플렉스 검정에 의해 TNF-알파, IL-2 및 IL-5에 대해 테스트하였다. 양성 ELISpot을 사용한 환자 5명 중 4명으로부터의 세포는 그랜자임 B를 포함한 3개 이상의 분석물을 분비하였으며(보충 표 4), 이는 신생항원-특이적 T-세포의 다기능성을 나타낸다. 중요하게도, 조합된 예측 및 IVS 방법이 이용가능한 MHC 다량체의 제한된 세트에 의존하지 않기 때문에, 반응은 제한 HLA 대립유전자에 걸쳐 광범위하게 테스트하였다. 또한, 이 접근법은 인식된 돌연변이를 동정하고, 최소 에피토프를 동정하기 위한 별개의 디컨볼루션 단계를 필요로 하는 탠덤 미니유전자 스크리닝과는 대조적으로, 최소 에피토프를 직접적으로 동정한다. 전반적으로, 신생항원 동정 수율은 일상적인 5-30mL의 전혈로 20개의 합성 펩타이드만을 스크리닝하는 동안, 성분채집기 샘플로 모든 돌연변이에 대한 TIL을 테스트하는 이전의 최상의 방법⁹⁶과 비교가능하였다.

XV.A. 펩타이드

주문 제작, 재조합 동결건조된 펩타이드는 JPT Peptide Technologies(독일 베를린 소재) 또는 Genscript(미국 뉴욕주 피스카타웨이 소재)로부터 구입하고 멸균 DMSO(VWR International, 미국 펜실베니아주 피츠버그 소재)에서 10-50 mM로 재구축하고, 분취하고 -80℃에서 저장하였다.

XV.B. 인간 말초 혈액 단핵 세포(PBMC)

건강한 공여자(HIV, HCV 및 HBV 혈청음성 동정됨)로부터 저온보존된 HLA-유형 PBMC는 Precision for Medicine(미국 뉴욕주 글래드스턴 소재) 또는 Cellular Technology, Ltd.(미국 오하이오주 클리블랜드 소재)로부터 구입하고 사용할 때까지 액체 질소에 저장하였다. 신선한 혈액 샘플은 Research Blood Components(미국 매사추세츠주 보스턴 소재)로부터, 류코팩(leukopak)은 AllCells(미국 매사추세츠주 보스턴 소재)로부터 구입하였고, PBMC는 저온보존 전에 Ficoll-Paque 밀도 구배(GE Healthcare Bio, 미국 매사추세츠주 말버러 소재)로 단리하였다. 환자 PBMC는 지역 임상 표준 작업 지침서(SOP) 및 IRB 승인된 프로토콜에 따라 지역 임상 프로세싱 센터에서 처리하였다. IRB 승인은 Quorum Review IRB, Comitato Etico Interaziendale A.O.U. San Luigi Gonzaga di Orbassano, 및

de la Investigacion del Grupo Hospitalario Quiron en Barcelona에서 이루어졌다.

간단히, PBMC를 밀도 구배 원심분리를 통해 단리하고, 세척하고, 계수하고, CryoStor CS10(STEMCELL Technologies, V6A 1B6 캐나다 BC 밴쿠버 소재)에서 5 x 10⁶개 세포/ml로 저온보존하였다. 저온보존된 세포를 저온포트에 선적하고 도착하자마자 LN₂에 저장하기 위해 옮겼다. 환자 인구통계는 보충 표 2에 열거되어 있다. 저온보존된 세포를 해동시키고 벤조나제(EMD Millipore, 미국 매사추세츠주 빌레리카 소재)를 함유하는 OpTmizer T-세포 확장 기초 배지(Gibco, 미국 메릴랜드주 게이더스버그 소재)로 2회 및 벤조나제가 없는 배지로 1회 세척하였다. 세포 계수 및 생존력은 Guava easyCyte HT-세포측정기(EMD Millipore)에서 Guava ViaCount 시약 및 모듈을 사용하여 평가하였다. 이어서 세포를 진행중인 검정에 적절한 농도 및 배지에서 재현탁하였다(다음 섹션 참조).

XV.C. 시험관내 자극(IVS) 배양

건강한 공여자 또는 환자 샘플로부터의 기존의 T-세포를 Ott 등⁸¹에 의해 적용된 것과 유사한 접근법으로 동계 펩타이드 및 IL-2의 존재 하에 확장시켰다. 간단히, 해동된 PBMC를 밤새 그대로 두고 24-웰 조직 배양 플레이트에서 14일 동안 10 IU/ml rhIL-2(R&D Systems Inc., 미네소타주 미니애폴리스 소재)를 함유하는 ImmunoCult™-XF T-세포 확장 배지(STEMCELL Technologies)에서 펩타이드 풀(펩타이드 당 10μM, 풀 당 10개의 펩타이드)의 존재 하에 자극하였다. 세포를 2 x 10⁶개 세포/웰로 시딩하고 배양 배지의 2/3을 대체함으로써 2-3일 마다 공급하였다. 하나의 환자 샘플은 프로토콜로부터 벗어난 것으로 나타났고 잠재적인 위음성으로 간주되어야 한다: 환자 CU03은 해동 후 충분한 수의 세포를 산출하지 않았고, 세포를 펩타이드 풀 당 2 x 10⁵개의 세포로 시딩하였다(프로토콜 당 10-배 감소).

XV.D. IFNγ 효소 결합 면역스폿(ELISpot) 검정

IFNγ-생성 T-세포의 검출은 ELISpot 검정에 의해 수행하였다.¹⁴² 간단히, PBMC(생체외 또는 시험관내 확장 후)를 수확하고, 혈청 무함유 RPMI(VWR International)로 세척하고 항-인간 IFNγ 포획 항체(Mabtech, 미국 오하이오주 신시내티 소재)로 코팅된 ELISpot 멀티스크린 플레이트(EMD Millipore)에서 OpTmizer T-세포 확장 기초 배지(생체외) 또는 ImmunoCult™-XF T-세포 확장 배지(확장된 배양)에서 대조군 또는 동계 펩타이드의 존재 하에 배양하였다. 5% CO₂, 37℃, 가습 인큐베이터에서 18시간 인큐베이션 후, 세포를 플레이트로부터 제거하였고, 항-인간 IFNγ 검출 항체(Mabtech), Vectastain Avidin 퍼옥시다제 복합체(Vector Labs, 미국 캘리포니아주 벌링게임 소재) 및 AEC 기질(BD Biosciences, 미국 캘리포니아주 산 호세 소재)을 사용하여 막-결합된 IFNγ를 검출하였다. ELISpot 플레이트를 건조시키고, 빛으로부터 보호하여 저장하고 표준화된 평가를 위해 Zellnet Consulting, Inc., 미국 뉴저지주 포트리 소재)로 보냈다¹⁴³. 데이터는 플레이팅된 세포의 수 당 스폿 형성 단위(SFU)로 제시된다.

XV.E. 그랜자임 B ELISA 및 MSD 멀티플렉스 검정

ELISpot 상청액에서 분비된 IL-2, IL-5 및 TNF-알파의 검출은 3-플렉스 검정 MSD U-PLEX 바이오마커 검정(카탈로그 번호 K15067L-2)을 사용하여 수행하였다. 검정은 제조업체의 설명서에 따라 수행하였다. 분석물 농도(pg/ml)는 각각의 시토카인에 대해 알려진 표준의 연속 희석을 사용하여 계산하였다. 그래픽 데이터 표시의 경우, 표준 곡선의 최소 범위 미만의 값은 0과 동일한 것으로 나타내었다. ELISpot 상청액에서 그랜자임 B의 검출은 제조업체의 설명서에 따라 그랜자임 B DuoSet® ELISA(R & D Systems, 미네소타주 미니애폴리스 소재)를 사용하여 수행하였다. 간단히, ELISpot 상청액을 샘플 희석액에서 1:4로 희석하고 그랜자임 B 표준의 연속 희석과 함께 실행하여 농도(pg/ml)를 계산하였다. 그래픽 데이터 표시의 경우, 표준 곡선의 최소 범위 미만의 값은 0과 동일한 것으로 나타내었다.

XV.F. IVS 검정을 위한 음성 대조군 실험 - 건강한 공여자에서 테스트된 종양 세포주로부터의 신생항원

도 18a는 건강한 공여자에서 테스트된 종양 세포주로부터의 신생항원에 대해 IVS 검정을 위한 음성 대조군 실험을 도시한다. 건강한 공여자 PBMC를 IVS 배양에서 양성 대조군 펩타이드(감염성 질병에 이전에 노출), 종양 세포주에서 비롯된 HLA-매칭된 신생항원(노출되지 않음), 및 공여자가 혈청음성인 병원체로부터 유래된 펩타이드를 함유하는 펩타이드 풀로 자극하였다. 이어서 확장된 세포를 DMSO(음성 대조군, 흑색 원), PHA 및 통상적인 감염성 질병 펩타이드(양성 대조군, 적색 원), 신생항원(노출되지 않음, 연청색 원), 또는 HIV 및 HCV 펩타이드(공여자는 혈청음성인 것으로 동정됨, 감청색, A 및 B)로 자극 후 IFNγ ELISpot(10⁵개 세포/웰)에 의해 분석하였다. 데이터는 10⁵개의 시딩된 세포 당 스폿 형성 단위(SFU)로 제시된다. 평균 및 SEM을 갖는 생물학적 반복이 제시된다. 신생항원, 또는 공여자가 노출되지 않은(혈청음성) 병원체로부터 유래된 펩타이드에 대한 반응은 관찰되지 않았다.

XV.G. IVS 검정을 위한 음성 대조군 실험 - 건강한 공여자에서 테스트된 환자로부터의 신생항원

도 18a는 건강한 공여자에서 반응성에 대해 테스트된 환자로부터의 신생항원에 대해 IVS 검정을 위한 음성 대조군 실험을 도시한다. HLA-매칭된 신생항원 펩타이드 풀에 대한 건강한 공여자에서의 T-세포 반응의 평가. 좌측 패널: 건강한 공여자 PBMC를 생체외 IFN-감마 ELISpot에서 대조군(DMSO, CEF 및 PHA) 또는 HLA-매칭된 환자-유래 신생항원 펩타이드로 자극하였다. 데이터는 3회 반복 웰에 대해 2 x 10⁵개의 플레이팅된 세포 당 스폿 형성 단위(SFU)로 제시된다. 우측 패널: 신생항원 풀 또는 CEF 풀 중 어느 하나의 존재 하에 확장된 IVS 배양 후 건강한 공여자 PBMC를 IFN-감마 ELISpot에서 대조군(DMSO, CEF 및 PHA) 또는 HLA-매칭된 환자-유래 신생항원 펩타이드 풀 중 어느 하나로 자극하였다. 데이터는 3회 반복 웰에 대해 1 x 10⁵개의 플레이팅된 세포 당 SFU로 제시된다. 건강한 공여자에서 신생항원에 대한 반응은 보이지 않는다.

XV.H. 보충 표 3: NSCLC 환자에서 T-세포 인식에 대해 테스트된 펩타이드

도 17a-c에서 연구된 N=9 환자에 대해 테스트된 신생항원 펩타이드에 대한 세부사항(NSCLC 환자로부터의 신생항원-반응성 T-세포의 동정).　 주요 분야는 공급원 돌연변이, 펩타이드 서열, 및 관찰된 풀 및 개별　펩타이드 반응을 포함한다. "가장_유망한_제한" 칼럼은 예측된 모델이 각각의 펩타이드를 제시할 가능성이 가장 높은 대립유전자를 나타낸다. 결합 친화성 예측(방법)으로 계산된 바와 같이 각각의 환자에 대해 모든 돌연변이된 펩타이드 중에서 이들 펩타이드의 순위가 또한 포함된다.

완전 MS 모델에 의해 주로 순위가 매겨지고 예측된 결합 친화성이 낮거나 결합 친화성 예측에 의해 낮은 순위가 매겨진 CD8 T-세포에 의해 인식되는 4개의 펩타이드가 존재하였다.

이들 펩타이드 중 3개의 경우는 모델과 MHCflurry 1.2.0. 펩타이드　YEHEDVKEA 사이의 HLA 적용범위의 차이가 HLA-B*49:01에 의해 제시될 것으로 예측되기 때문이며, 이는 MHCflurry　1.2.0에 의해 포괄되지 않는다. 유사하게, 펩타이드　SSAAAPFPL 및 FVSTSDIKSM은 HLA-C*03:04에 의해 제시될 것으로 예측되며, 이는 또한 MHCflurry 1.2.0에 의해 포괄되지 않는다. 원칙적으로 모든 대립유전자를 포괄하는 범용-특이적 결합 친화성 예측변수인 온라인　NetMHCpan 4.0(BA) 예측변수는 HLA-C*03:04에 대한 강한 결합제로 SSAAAPFPL(23.2nM, 환자 1-024-002에 대해 두번째 순위로 매겨짐)의 순위를 매기고, HLA-C*03:04에 대한 FVSTSDIKSM(943.4nM,　환자 1-024-002에 대해 39번째 순위로 매겨짐)의 약한 결합 및 HLA-B*49:01에 대한 YEHEDVKEA(3387.8nM)의 약한 결합이지만, HLA-B*41:01에 대한 더 강한 결합(208.9nM, 환자　1-038-001에 대해 11번째 순위로 매겨짐)을 예측하며, 이는 또한 이 환자에서 제시되지만 모델에 의해 포괄되지는 않는다. 따라서, 이들 3개의 펩타이드 중, FVSTSDIKSM은 결합 친화성 예측에 의해 누락되었고, SSAAAPFPL은 포획되었으며, YEHEDVKEA의 HLA 제한은 불확실하다.

펩타이드-특이적　T-세포 반응이 디컨볼브된 나머지 5개의 펩타이드는 모델에 의해 결정된 바와 같은 가장 유망한 제시 대립유전자가 또한 MHCflurry 1.2.0에 의해 포괄된 환자로부터 비롯되었다. 이들 5개의 펩타이드 중, 5개 중 4개는 표준　500nM 임계치보다 더 강한 결합 친화성을 예측했고 모델로부터의 순위보다 다소 더 낮은 순위를 가졌지만 상위 20위를 차지했다(펩타이드 DENITTIQF, QDVSVQVER, EVADAATLTM, DTVEYPYTSF는 각각 모델에 의해 0, 4, 5, 7위 대 MHCflurry에 의해 2, 14, 7, 및 9위를 차지했다). 펩타이드 GTKKDVDVLK는 CD8 T-세포에 의해 인식되고 모델에 의해 1위를 차지했지만, MHCflurry에 의해 70위를 차지하고 결합 친화성 2169 nM을 예측하였다.

전반적으로, 완전 MS 모델에 의해 주로 순위가 매겨진 별개로-인식된 펩타이드 8개 중 6개는 또한 결합 친화성　예측을 사용하여 주로 순위가 매겨지고 예측된 결합 친화성 <500nM을 가졌던 반면, 별개로-인식된 펩타이드 8개 중 2개는 결합 친화성 예측이 완전 MS 모델 대신에 사용된 경우 누락되었을 것이다.

XV.I. 보충 표 4: NSCLC 신생항원 펩타이드로부터의 ELISpot 상청액에 대한 MDS 시토카인 멀티플렉스 및 ELISA 검정

양성 ELISpot(IFN감마) 웰로부터의 상청액에서 검출된 분석물은 그랜자임 B(ELISA), TNF알파, IL-2 및 IL-5(MSD)에 대해 제시된다. 값은 기술적 반복으로부터 평균 pg/ml로 제시된다. 양성 값은 이탤릭체로 제시된다. 그랜자임 B ELISA: DMSO 배경에 비해 ≥1.5-배인 값이 양성으로 간주되었다. U-Plex MSD 검정: DMSO 배경에 비해 ≥1.5-배인 값이 양성으로 간주되었다.

XV.J. 보충 표 5: IVS 대조군 실험에서 신생항원 및 감염성 질병 에피토프

IVS 대조군 실험에서 테스트된 종양 세포주 신생항원 및 바이러스 펩타이드에 대한 세부사항은 도 18a-b에 제시되어 있다. 주요 분야는 공급원 세포주 또는 바이러스, 펩타이드 서열, 및 예측된 제시 HLA 대립유전자를 포함한다.

XV.K. 데이터

예측 모델을 훈련 및 테스트하는데 사용된 MS 펩타이드 데이터세트(도 16)는 MassIVE Archive(massive.ucsd.edu), 수탁 번호 MSV000082648에서 이용가능하다. ELISpot에 의해 테스트된 신생항원 펩타이드(도 17a-c 및 18a-b)는 사본으로 포함된다(보충 표 3 및 5).

XVI. 실시예 8-11의 방법

XVI.A. 질량 분광법

XVI.A.1. 시료

질량 분광법 분석을 위해 보관된 동결 조직 시료는 BioServe(메릴랜드주 벨츠빌 소재), ProteoGenex(캘리포니아주 컬버시티 소재), iSpecimen(매사추세츠주 렉싱턴 소재), 및 Indivumed(독일 함부르크 소재)를 포함한 상업용 공급처로부터 수득하였다. 또한 시료의 서브셋은 Comite de Protection des Personnes, Ile-de-France VII에 의해 승인된 연구 프로토콜 하에 Hopital Marie Lannelongue(프랑스 르 쁠레시스-호방송 소재)의 환자로부터 전향적으로 수집하였다.

XVI.A.2. HLA 면역침전

HLA-펩타이드 분자의 단리는 조직 샘플의 용해 및 가용화 후 확립된 면역침전(IP) 방법을 사용하여 수행하였다^87,124-126. 신선한 동결 조직을 분쇄하고(CryoPrep; Covaris, 매사추세츠주 워번 소재), 용해 완충액(1% CHAPS, 20mM Tris-HCl, 150mM NaCl, 프로테아제 및 포스파타제 억제제, pH=8)을 첨가하여 조직을 가용화하고, 생성된 용액을 4C에서 2 시간 동안 원심분리하여 잔해물을 펠릿화하였다. 정화된 용해물은 HLA 특이적 IP에 사용된다. 면역침전은 항체 W6/32를 사용하여 이전에 기재된 바와 같이 수행하였다.¹²⁷ 용해물을 항체 비드에 첨가하고 면역침전을 위해 4C에서 밤새 회전시켰다. 면역침전 후, 비드를 용해물로부터 제거하였다. IP 비드를 세척하여 비-특이적 결합을 제거하고 2N 아세트산을 사용하여 HLA/펩타이드 복합체를 비드로부터 용리하였다. 단백질 구성요소는 분자량 스핀 칼럼을 사용하여 펩타이드로부터 제거하였다. 생성된 펩타이드를 SpeedVac 증발에 의해 건조시키고 MS 분석 전에 -20C에서 저장하였다.

XVI.A.3. 펩타이드 서열분석

건조된 펩타이드를 HPLC 완충액 A에서 재구축하고 질량 분광계로의 구배 용리를 위해 C-18 미세모세관 HPLC 칼럼 상에 로딩하였다. 180 분 동안 0-40%B(용매 A - 0.1% 포름산, 용매 B- 80% 아세토니트릴 중 0.1% 포름산)의 구배를 사용하여 펩타이드를 Fusion Lumos 질량 분광계(Thermo)로 용리하였다. 펩타이드 질량/전하(m/z)의 MS1 스펙트럼을 Orbitrap 검출기에서 120,000 해상도로 수집한 다음 선택된 이온의 HCD 단편화 후 Orbitrap 또는 이온 트랩 검출기 중 하나에서 20개의 MS2 저해상도 스캔을 수집하였다. MS2 이온의 선택은 이온의 MS2 선택 후 30초의 데이터 의존적 획득 모드 및 동적 배제를 사용하여 수행하였다. 자동 이득 조절(AGC)은 MS1 스캔의 경우 4x105로 설정하였고 MS2 스캔의 경우 1x104로 설정하였다. HLA 펩타이드 서열분석에 대해, +1, +2 및 +3 전하 상태가 MS2 단편화를 위해 선택될 수 있다.

각각의 분석으로부터 MS2 스펙트럼은 Comet^128,129을 사용하여 단백질 데이터베이스에 대해 검색하고 펩타이드 동정은 Percolator^130-132를 사용하여 점수화하였다.

XVI.B. 기계 학습

XVI.B.1. 데이터 인코딩

각각의 샘플에 대해, 훈련 데이터 포인트는 모두 샘플에서 발현된 정확히 하나의 유전자에 맵핑된 참조 프로테옴으로부터의 8-11mer(포함) 펩타이드였다. 전반적인 훈련 데이터세트는 각각의 훈련 샘플로부터 훈련 데이터세트를 연결시킴으로써 형성하였다. 길이 8-11은 모든 HLA 부류 I 제시된 펩타이드의 ~95%를 포획하기 때문에 선택되었지만; 그 모델에 길이 12-15를 추가하는 것은 계산론적 요구에서 약간의 증가를 대가로 동일한 방법론을 사용하여 달성될 수 있다. 펩타이드 및 측접 서열은 원-핫 인코딩 방식을 사용하여 벡터화하였다. 복수의 길이(8-11)의 펩타이드는 패드 문자로 아미노산 알파벳을 늘리고 모든 펩타이드를 최대 길이 11로 패딩함으로써 고정-길이 벡터로 표시되었다. 훈련 펩타이드의 공급원 단백질의 RNA 존재비는 RSEM으로부터 수득된 이소형-수준의 백만 당 전사체(TPM) 추정치의 로그로 표시되었다¹³³. 각각의 펩타이드에 대해, 과-펩타이드 TPM은 펩타이드를 함유하는 이소형 각각에 대해 과-이소형 TPM 추정치의 합으로 계산하였다. 0 TPM에서 발현된 유전자로부터의 펩타이드는 훈련 데이터로부터 제외하였고, 테스트 시간에, 발현되지 않은 유전자로부터의 펩타이드는 제시 확률 0으로 할당하였다. 마지막으로, 각각의 펩타이드는 Ensembl 단백질 패밀리 ID에 할당하였고, 각각의 고유한 Ensembl 단백질 패밀리 ID는 과-유전자 제시 성향 절편에 상응하였다(다음 섹션 참조).

XVI.B.2. 모델 아키텍처의 사양

완전 제시 모델은 하기 함수 형태를 갖는다:

여기서 k는 1에서 m까지 실행되는 데이터세트에서 HLA 대립유전자를 나타내고,

는 대립유전자 k가 펩타이드 i가 유래된 샘플에 존재하면 값이 1이고 그렇지 않으면 0인 표시 변수이다. 주어진 펩타이드 i에 대하여, 모두는 아니지만 최대 6의

(펩타이드 i의 기원 샘플의 HLA 유형에 상응하는 6)이 0일 것이라는 점에 유의한다. 확률의 합은 예를 들어

= 10^-6이면, 1-

에서 잘라낸다.

과-대립유전자 제시 확률은 하기와 같이 모델링된다:

여기서 변수는 다음과 같은 의미를 갖는다: 시그모이드는 시그모이드(일명 expit) 함수이고, 펩타이드 _i 는 펩타이드 i의 원핫-인코딩된 중간-패딩된 아미노산 서열이고, NN _α 는 제시 확률에 대한 펩타이드 서열의 기여를 모델링하는 선형 마지막층 활성화를 갖는 신경 네트워크이고, 측접 _i 는 그의 공급원 단백질에서 펩타이드 i의 원핫-인코딩된 측접 서열이고, NN _측접은 제시 확률에 대한 측접 서열의 기여를 모델링하는 선형 마지막층 활성화를 갖는 신경 네트워크이고, TPM _i 는 TPM 단위에서 펩타이드 i의 공급원 mRNA의 발현이고, 샘플(i)는 펩타이드 i의 기원의 샘플(즉, 환자)이고, α_샘플(i)는 과-샘플 절편이고, 단백질(i)는 펩타이드 i의 공급원 단백질이고, β_단백질(i)는 과-단백질 절편(일명 과-유전자 제시 성향)이다.

결과 섹션에 기재된 모델에 대해, 구성요소 신경 네트워크는 하기 아키텍처를 갖는다:

· 각각의 NN _α 는 입력 치수 231(11개의 잔기 x 잔기 당 21개의 가능한 문자, 패드 문자 포함), 너비 256, 은닉층에서의 정류 선형 단위(ReLU) 활성화, 출력층에서의 선형 활성화를 갖는 하나의 은닉층 다층 퍼셉트론(MLP)의 하나의 출력 노드, 및 훈련 데이터세트에서 HLA 대립유전자 α 당 하나의 출력 노드이다.

· NN _측접은 입력 치수 210(N-말단 측접 서열의 5개 잔기 + C-말단 측접 서열의 5개 잔기 x 잔기 당 21개의 가능한 문자, 패드 문자 포함), 너비 32, 은닉층에서 정류 선형 단위(ReLU) 활성화 및 출력층에서의 선형 활성화를 갖는 의 하나의 히든층 MLP이다.

· NN _RNA는 입력 치수 1, 너비 16, 은닉층에서 선형 단위(ReLU) 활성화 및 출력층에서의 선형 활성화를 갖는 하나의 히든층 MLP이다.

모델의 일부 구성요소(예를 들어, NN _α )가 특정 HLA 대립유전자에 의존하지만, 많은 구성요소(NN _측접, NN _RNA, α_샘플(i), β_단백질(i))가 그렇지 않다는 점에 유의한다. 전자는 "대립유전자-상호작용"으로, 후자는 "대립유전자-비상호작용"으로 지칭된다. 대립유전자-상호작용 또는 비상호작용으로 모델링하는 특징은 생물학적 사전 지식에 기초하여 선택되었다: HLA 대립유전자는 펩타이드로 이해하며, 그래서 펩타이드 서열은 대립유전자-상호작용으로 모델링되어야 하지만, 공급원 단백질, RNA 발현 또는 측접 서열에 대한 정보는 HLA 분자로 전달되지 않으며 (펩타이드는 세포질 세망에서 HLA를 직면하는 시점에 그의 공급원 단백질로부터 분리되었으므로), 그래서 이들 특징은 대립유전자-비상호작용으로 모델링되어야 한다. 모델은 Keras v2.0.4¹³⁴ 및 Theano v0.9.0¹³⁵에서 구현되었다.

펩타이드 MS 모델은 완전 MS 모델(수식 1)로서 동일한 디컨볼루션 절차를 사용했지만, 펩타이드 서열 및 HLA 대립유전자만을 고려하는 감소된 과-대립유전자 모델을 사용하여 과-대립유전자 제시 확률을 생성하였다:

펩타이드 MS 모델은 결합 친화성 예측과 동일한 특징을 사용하지만, 모델의 가중치는 상이한 데이터 유형(즉, 질량 분광법 데이터 vs HLA-펩타이드 결합 친화성 데이터)에 대해 훈련된다. 따라서, 완전 MS 모델에 대한 펩타이드 MS 모델의 예측 성능을 비교하면 전체 예측 성능에 대한 비-펩타이드 특징(즉, RNA 존재비, 측접 서열, 유전자 ID)의 기여를 나타내고, 결합 친화성 모델에 대한 펩타이드 MS 모델의 예측 성능을 비교하면 전체 예측 성능에 대한 펩타이드 서열의 개선된 모델링의 중요성을 나타낸다.

XVI.B.3. 훈련/ 검증/ 테스트 분할

본 발명자들은 다음 절차를 사용하여 훈련 / 검증 / 테스팅 세트 중 하나 초과에서 펩타이드가 보이지 않았음을 보장하였다: 먼저 1개 초과의 단백질에서 보이는 참조 프로테옴으로부터 모든 펩타이드를 제거한 다음, 프로테옴을 10개의 인접한 펩타이드의 블록으로 나눈다. 각각의 블록은 훈련, 검증 또는 테스팅 세트에 고유하게 할당되었다. 이 방식으로, 훈련, 검증, 또는 테스팅 세트 중 하나 초과에서 펩타이드는 보이지 않는다. 검증 세트는 초기 중지에만 사용하였다. 도 14-16의 종양 샘플 테스트 데이터는 전적으로 훈련 및 검증 세트에 대해 동정된 5개의 종양 샘플로부터의 테스트 세트 펩타이드(즉, 테스트 세트에 고유하게 할당된 인접한 펩타이드의 블록으로부터의 펩타이드)를 나타낸다.

XVI.B.4. 모델 훈련

모델 훈련에 대해, 모든 펩타이드는 과-펩타이드 손실이 음성 베르누이 로그-가능성 손실 함수(일명 로그 손실)인 경우 독립적으로 모델링하였다. 공식적으로, 전체 손실에 대한 펩타이드 i의 기여는 하기와 같으며:

여기서

는 펩타이드 i의 표지이며; 즉, 펩타이드 i가 제시된 경우

이고 그렇지 않으면 0이고,

는 i.i.d. 이진 관측 벡터 y가 주어지면 파라미터

의 베르누이 가능성을 나타낸다. 모델은 손실 함수를 최소화함으로써 훈련되었다.

훈련 시간을 감소시키기 위해, 음성-표지된 훈련 데이터의 90%를 무작위로 제거하여, ~2000개의 비-제시 펩타이드 당 1개의 제시 펩타이드의 전체 훈련 세트 클래스 균형을 산출함으로써 클래스 균형을 조정하였다. 모델 가중치는 Glorot 균일 절차61을 사용하여 초기화하고 Nvidia Maxwell TITAN X GPU에서 표준 파라미터를 갖는 ADAM62 확률적 옵티마이저를 사용하여 훈련시켰다. 초기 중단을 위해 총 데이터의 10%로 이루어진 검증 세트를 사용하였다. 모델을 분기 마다 검증 세트에 대해 평가하였고 검증 손실(즉, 검증 세트에 대한 음성 베르누이 로그-가능성)이 감소하지 못한 경우 첫 분기 후 모델 훈련을 중지시켰다.

완전 제시 모델은 10개 모델 반복의 앙상블이었으며, 각각의 반복은 앙상블 내에서 모든 모델에 대한 모델 가중치의 상이한 무작위 초기화로 동일한 훈련 데이터의 셔플 사본에서 독립적으로 훈련시켰다. 테스트 시간에, 모델 반복에 의해 출력된 확률의 평균을 취함으로써 예측을 생성하였다.

XVI.B.5. 모티프 로고

웹로고리브 Python API v3.5.0¹³⁸을 사용하여 모티프 로고를 생성하였다. 결합 친화성 로고를 생성하기 위해, 2017년 7월에 면역 에피토프 데이터베이스(IEDB⁸⁸)로부터 mhc_ligand_full.csv 파일을 다운로드하였고 다음 기준을 충족하는 펩타이드를 유지하였다: 나노몰(nM) 단위로 측정, 2000년 이후 기준일, "선형 펩타이드"와 동일한 대상 유형 및 표준 20-문자 아미노산 알파벳으로부터 도출된 펩타이드에서의 모든 잔기. 500nM의 통상적인 결합 임계치 미만의 측정된 결합 친화성을 갖는 필터링된 펩타이드의 서브셋을 사용하여 로고를 생성하였다. IEDB에서 너무 적은 결합제를 갖는 대립유전자 쌍의 경우, 로고를 생성하지 않았다. 학습된 제시 모델을 나타내는 로고를 생성하기 위해, 각각의 대립유전자 및 각각의 펩타이드 길이에 대해 2,000,000개의 무작위 펩타이드에 대한 모델 예측을 예측하였다. 각각의 대립유전자 및 각각의 길이에 대해, 학습된 제시 모델에 의해 상위 1%(즉, 상위 20,000위)에서 순위가 매겨진 펩타이드를 사용하여 로고를 생성하였다. 중요하게도, IEDB로부터의 이 결합 친화성 데이터는 모델 훈련 또는 테스팅에 사용되지 않았지만, 학습된 모티프의 비교를 위해서만 사용되었다.

XVI.B.6. 결합 친화성 예측

본 발명자들은 모델의 NetMHC 패밀리에 필적할만한 성능을 갖는 오픈-소스, GPU-호환성 HLA 부류 I 결합 친화성 예측변수인 MHCflurry v1.2.0¹³⁹으로부터의 결합 친화성-단독 예측변수를 사용하여 펩타이드-MHC 결합 친화성을 예측하였다. 복수의 HLA 대립유전자에 걸친 단일 펩타이드에 대한 결합 친화성 예측을 조합하기 위해, 최소 결합 친화성을 선택하였다. 복수의 펩타이드에 걸친 결합 친화성을 조합하기 위해(즉, 도 16에서와 같이 복수의 돌연변이된 펩타이드에 의해 스패닝된 돌연변이의 순위를 매기기 위해), 펩타이드에 걸친 최소 결합 친화성을 선택하였다. T-세포 데이터세트에 대한 RNA 발현 이진화(thresholding)를 위해, TCGA에서 TPM>1에서의 임계치까지 종양-유형 매칭된 RNA-seq 데이터를 사용하였다. 모든 원래 T-세포 데이터세트는 원래 간행물에서 TPM>0에서 필터링되었으므로, TPM>0에서 필터링하기 위한 TCGA RNA-seq 데이터는 사용하지 않았다.

XVI.B.7. 제시 예측

복수의 HLA 대립유전자에 걸친 단일 펩타이드에 대한 제시 확률을 조합하기 위해, 수식 1에서와 같이 확률의 합을 동정하였다. 복수의 펩타이드에 걸친 제시 확률을 조합하기 위해(즉, 도 16에서와 같이 복수의 펩타이드에 의해 스패닝된 돌연변이의 순위를 매기기 위해), 제시 확률의 합을 동정하였다. 확률적으로, 펩타이드의 제시가 i.i.d. 베르누이 무작위 변수로서 보인 경우, 확률의 합은 제시된 돌연변이된 펩타이드의 예상된 수에 상응한다:

여기서 Pr[제시된 에피토프 j]는 훈련된 제시 모델을 에피토프 j에 적용함으로써 수득되고, η_i는 돌연변이 i를 스패닝하는 돌연변이된 에피토프의 수를 나타낸다. 예를 들어, SNV i가 그의 공급원 유전자의 말단에서 떨어진 경우, 돌연변이된 에피토프를 스패닝하는 총 η_i = 38에 대해, 8은 8-mer를 스패닝하고, 9는 9-mer를 스패닝하고, 10은 10-mer를 스패닝하고 11은 11-mer를 스패닝한다.

XVI.C. 차세대 서열분석

XVI.C.1. 시료

동결 절제된 종양의 전사체 분석을 위해, MS 분석에 사용된 것과 동일한 조직 시료(종양 또는 인접한 정상)로부터 RNA를 수득하였다. 항-PD1 요법에 대해 환자에서 신생항원 엑솜 및 전사체 분석을 위해, 보관된 FFPE 종양 생검으로부터 DNA 및 RNA를 수득하였다. 인접한 정상, 매칭된 혈액 또는 PBMC를 사용하여 정상 엑솜 및 HLA 유형화를 위한 정상 DNA를 수득하였다.

XVI.C.2. 핵산 추출 및 라이브러리 구성

혈액으로부터 유래된 정상/생식계열 DNA는 제조업체의 권고된 절차에 따라 Qiagen DNeasy 칼럼(독일 힐덴 소재)을 사용하여 단리하였다. 조직 시료로부터의 DNA 및 RNA는 제조업체의 권고된 절차에 따라 Qiagen Allprep DNA/RNA 단리 키트를 사용하여 단리하였다. DNA 및 RNA는 Picogreen 및 Ribogreen Fluorescence(Molecular Probes)에 의해 정량화하고, >50ng의 수율을 갖는 각각의 시료를 라이브러리 구성으로 진행시켰다. DNA 서열분석 라이브러리는 제조업체의 권고된 프로토콜에 따라 음향 전단(Covaris, 매사추세츠주 워번 소재) 이어서 DNA Ultra II(NEB, 매사추세츠주 비벌리 소재) 라이브러리 제조 키트에 의해 생성하였다. 종양 RNA 서열분석 라이브러리는 열 단편화 및 RNA Ultra II(NEB)를 사용한 라이브러리 구성에 의해 생성하였다. 생성된 라이브러리는 Picogreen(Molecular Probes)에 의해 정량화하였다.

XVI.C.3. 전체 엑솜 포획

DNA 및 RNA 서열분석 라이브러리 둘 다에 대한 엑손 풍부화는 xGEN 전체 엑솜 패널(Integrated DNA Technologies)을 사용하여 수행하였다. 1 내지 1.5 μg의 정상 DNA 또는 종양 DNA 또는 RNA-유래 라이브러리를 입력값으로 사용하고 12 시간 초과 동안 혼성화하도록 한 다음 스트렙타비딘 정제하였다. 포획된 라이브러리는PCR에 의해 최소로 증폭시키고 NEBNext Library Quant Kit(NEB)에 의해 정량화하였다. 포획된 라이브러리는 농도로 풀링하고 c-bot(Illumina)을 사용하여 클러스터링하고 >500x 종양 엑솜, >100x 정상 엑솜, 및 >100M 판독물 종양 전사체의 표적 고유 평균 적용범위에 대해 HiSeq4000(Illumina)에서 75개 염기쌍 말단에서 서열분석하였다.

XVI.C.4. 분석

엑솜 판독물(FFPE 종양 및 매칭된 정상)은 BWA-MEM¹⁴⁴(v. 0.7.13-r1126)을 사용하여 참조 인간 게놈(hg38)에 정렬시켰다. RNA-seq 판독물(FFPE 및 동결 종양 조직 샘플)은 STAR(v. 2.5.1b)를 사용하여 게놈 및 GENCODE 전사체(v. 25)에 정렬시켰다. RNA 발현은 동일한 참조 전사체와 함께 RSEM¹³³(v. 1.2.31)을 사용하여 정량화하였다. Picard(v. 2.7.1)를 사용하여 중복 정렬을 표시하고 정렬 미터를 계산하였다. GATK¹⁴⁵(v. 3.5-0)를 사용한 염기 품질 스코어 재보정 후 FFPE 종양 샘플에 대하여, 치환 및 짧은 삽입-결실 변이체는 FreeBayes¹⁴⁶(1.0.2)를 사용한 쌍형성 종양-정상 엑솜을 사용하여 결정하였다. 필터는 대립유전자 빈도 >4%; 중앙값 염기 품질 >25, 지지 판독물 30의 최소 맵핑 품질, 및 수득된 충분한 적용범위를 갖는 정상 <=2에서의 대체 판독 계수를 포함하였다. 또한 변이체는 두 가닥에서 검출되어야 한다. 반복 영역에서 발생하는 체세포 변이체는 제외하였다. 번역 및 주석은 RefSeq 전사체를 사용하여 snpEff¹⁴⁷(v. 4.2)로 수행하였다. 종양 RNA 정렬에서 동정된 비동의, 논스톱 변이체는 신생항원 예측으로 진행하였다. Optitype¹⁴⁸ 1.3.1을 사용하여 HLA 유형을 생성하였다.

XVI.C.5. 도 18a-b: IVS 대조군 실험을 위한 종양 세포주 및 매칭된 정상

종양 세포주 H128, H122, H2009, H2126, Colo829 및 이들의 정상 공여자 매칭된 대조군 세포주 BL128, BL2122, BL2009, BL2126 및 Colo829BL은 모두 ATCC(버지니아주 매나서스 소재)로부터 구입하였고, 판매자의 설명서에 따라 10⁸³-10⁸⁴개의 세포로 성장시킨 다음 핵산 추출 및 서열분석을 위해 순간 동결시켰다. NGS 프로세싱은, MuTect¹⁴⁹(3.1-0)가 치환 돌연변이 검출에만 사용된 것을 제외하고는, 일반적으로 상기 기재된 바와 같이 수행하였다. IVS 대조군 검정에 사용된 펩타이드는 보충 표 5에 열거되어 있다.

XVI.D. MHC 부류 II 분자에 대한 제시 핫스팟 모델링

또한, 제시 핫스팟 파라미터를 사용할 때 및 제시 핫스팟 파라미터를 사용하지 않을 때 부류 II HLA 펩타이드 제시에 대해 본원에 개시된 모델의 성능을 평가 하였다. 부류 I 복합체는 세포질 단백질을 제공하고 인간의 모든 핵 형성 세포의 표면에서 발견되지만, 부류 II 복합체는 주로 항원-제시 세포에서 발견되며 주로 세포 외 (외인성) 단백질의 제시를 담당한다. 결합 메커니즘 및 펩티드 길이에서 부류 I 및 II 사이에도 차이가 있다.

제시 핫스팟 특징을 사용할 때 및 제시 핫스팟 특징을 사용하지 않을 때 부류 II HLA 펩티드 제시에 대해 본원에 개시된 모델의 성능을 평가하기 위해, 각각이 단일 HLA 부류 I 대립유전자를 발현하는 2개의 세포주에 대해 공개된 부류 II 질량 분광법 데이터를 수득하였다. 하나의 세포주는 HLA-DRB1*15:01을 발현하고 다른 하나는 HLA-DRB5*01:01을 발현하였다¹⁵⁰. 이들 2개의 세포주를 훈련 데이터에 사용하였다. 테스트 데이터에 대해, 부류 II 질량 분광법 데이터는 HLA-DRB1*15:01 및 HLA-DRB5*01:01 둘 다를 발현하는 별개의 세포주로부터 수득하였다.¹⁵¹ RNA 서열분석 데이터는 훈련 또는 테스팅 세포주에 이용가능하지 않았으므로, 상이한 B-세포주, B721.221⁹²로부터의 RNA-서열분석 데이터로 대체하였다.

펩타이드 세트는 9 내지 20의 길이를 갖는 부류 II 데이터 펩타이드가 포함된 것을 제외하고는, HLA 부류 I 데이터와 동일한 절차를 사용하여 훈련, 검증 및 테스팅 세트로 분할하였다. 훈련 데이터는 HLA-DRB1*15:01에 의해 제시된 330개의 펩타이드, 및 HLA-DRB5*01:01에 의해 제시된 103개의 펩타이드를 포함하였다. 테스트 데이터세트는 4708개의 비-제시된 펩타이드와 함께 HLA-DRB1*15:01 또는 HLA-DRB5*01:01에 의해 제시된 223개의 펩타이드를 포함하였다.

도 22에 도시된 결과를 생성하는데 사용된 제시 모델은 본원에 개시된 MHC 부류 II 제시 예측 모델이다. 제시 모델은 HLA 부류 II 펩타이드 제시를 예측하기 위해 훈련 데이터세트 상에서 훈련된 10 개의 모델의 앙상블이었다. 이들 모델에 대한 아키텍처 및 훈련 절차는 부류 II 모델이 길이가 11이 아니라 20인 원 핫-인코딩되고 0-패딩된 입력 펩타이드 서열을 취한 것을 제외하고는, 부류 I 제시를 예측하는데 사용된 것들과 동일하였다.

도 22는 MHC 부류 II 분자에 의한 신생에피토프의 제시를 예측할 때, 제시 핫스팟 파라미터를 사용한 제시 모델과 제시 핫스팟 파라미터를 사용하지 않은 제시 모델의 예측 성능을 비교한다. 구체적으로, 도 22는 이들 2 가지 버전의 제시 모델에 대한 수신기 동작 특성 (ROC) 곡선을 도시한다. 핫스팟 모델은 ROC 곡선 (ROC AUC)이 0.96인 영역을 달성하면서 성능이 향상되었으며 핫스팟이 없는 모델은 0.93의 ROC AUC을 수득하였다.

XVII. 실시예 12: NSCLC 환자의 말초 혈액으로부터의 신생항원-특이적 기억 T-세포의 TCR 서열분석

도 23는 NSCLC 환자의 말초 혈액으로부터의 신생항원-특이적 기억 T-세포의 TCR을 서열분석하는 방법을 도시한다. NSCLC 환자 CU04(도 17a-21와 관련하여 상기 기재됨)로부터의 말초 혈액 단핵 세포(PBMC)는 ELISpot 인큐베이션 후 수집하였다. 구체적으로, 상기 논의된 바와 같이, 환자 CU04의 2회 방문으로부터 시험관내 확장된 PBMC를 IFN-감마 ELISpot에서 CU04-특이적 개별 신생항원 펩타이드(도 20c), CU04-특이적 신생항원 펩타이드 풀(도 20c), 및 DMSO 음성 대조군(도 21)으로 자극하였다. 인큐베이션 후 및 검출 항체의 첨가 전에, PBMC를 새로운 배양 플레이트로 옮기고 ELISpot 검정의 완료 동안 인큐베이터에서 유지하였다. ELISpot 결과에 기초하여 양성(반응성) 웰을 동정하였다. 도 20에 도시된 바와 같이, 동정된 양성 웰은 CU04-특이적 개별 신생항원 펩타이드 8로 자극된 웰 및 CU04-특이적 신생항원 펩타이드 풀로 모의된 웰을 포함한다. 이들 양성 웰 및 음성 대조군(DMSO) 웰로부터의 세포를 조합하고 Miltenyi 자기 단리 칼럼을 사용하여 풍부화를 위해 자기-표지된 항체와 함께 CD137로 염색하였다.

상기 기재된 바와 같이 단리 및 확장된 CD137-풍부화된 및 -고갈된 T-세포 분획을 10x Genomics 단일 세포 해상도 쌍형성 면역 TCR 프로파일링 접근법을 사용하여 서열분석하였다. 구체적으로, 살아있는 T-세포를 후속 단일 세포 cDNA 생성 및 전장 TCR 프로파일링(불변 영역을 통해 5' UTR -알파 및 베타 쌍 보장)을 위해 단일 세포 에멀젼으로 분할하였다.　 하나의 접근법은 전사체의 5' 말단에서 분자적으로 바코드화된 주형 스위칭 올리고를 활용하고, 제2 접근법은 3' 말단에서 분자적으로 바코드화된 불변 영역 올리고를 활용하고, 제3 접근법은 RNA 폴리머라제 프로모터를 TCR의 5' 또는 3' 말단에 커플링한다.　 모든 이러한 접근법은 단일-세포 수준에서 알파 및 베타 TCR 쌍의 동정 및 디컨볼루션을 가능하게 한다.　 생성된 바코드화된 cDNA 전사체는 최적화된 효소 및 라이브러리 구성 워크플로우를 진행하여 편향을 줄이고 세포의 풀 내에서 클론형의 정확한 표시을 보장한다. 라이브러리는 세포 당 약 5천 내지 5만개 판독물의 심층 표적 서열분석을 위해 Illumina's MiSeq 또는 HiSeq4000 기기(쌍형성-말단 150 사이클)에서 서열분석하였다. 생성된 TCR 핵산 서열은 보충 표 6에 도시되어 있다.　 보충 표 6에 기재되어 있는 TCRa 및 TCRb 쇄의 존재는 직교 앵커-PCR 기반 TCR 서열분석 접근법(Archer)에 의해 동정하였다. 이 특정 접근법은 10x Genomics 기반 TCR 서열분석과 비교시 제한된 세포 수를 입력값으로 사용하고 효소 조작을 줄이는 이점을 갖는다.

또한 보충 표 6에 도시된 바와 같은 T-세포 수용체(TCR) 알파 및 베타 쇄 쌍을 동정하기 위해 10x 소프트웨어 및 맞춤형 생물적보학 파이프라인을 사용하여 서열분석 출력값을 분석하였다. 보충 표 6은 가장 우세한 TCR 클론형의 알파 및 베타 가변(V), 결합(J), 불변(C), 및 베타 다양성(D) 영역, 및 CDR3 아미노산 서열을 추가로 열거한다. 클론형은 고유 CDR3 아미노산 서열의 알파, 베타 쇄 쌍으로 정의되었다. 클론형을 2개 초과의 세포 빈도로 존재하는 단일 알파 및 단일 베타 쇄 쌍에 대해 필터링하여 환자 CU04에서 표적 펩타이드 당 클론형의 최종 목록을 산출하였다(보충 표 6).

요약하면, 도 23와 관련하여 상기 기재된 방법을 사용하여, 섹션 XIV.의 실시예 10과 관련하여 상기 논의된 바와 같은 동정된 환자 CU04'의 종양 신생항원에 신생항원-특이적인 환자 CU04의 말초 혈액으로부터의 기억 CD8+ T-세포를 동정하였다. 이들 동정된 신생항원-특이적 T-세포의 TCR을 서열분석하였다. 또한, 상기 제시 모델에 의해 동정된 바와 같은 환자 CU04'의 종양 신생항원에 신생항원-특이적인 서열분석된 TCR을 동정하였다.

XVIII. 실시예 13: T-세포 요법을 위한 신생항원-특이적 기억 T-세포의 사용

환자의 종양에 의해 제시된 신생항원에 신생항원-특이적인 T-세포 및/또는 TCR을 동정한 후, 이들 동정된 신생항원-특이적 T-세포 및/또는 TCR은 환자에서 T-세포 요법에 사용될 수 있다. 구체적으로, 이들 동정된 신생항원-특이적 T-세포 및/또는 TCR은 T-세포 요법 동안 환자에게 주입하기 위한 치료량의 신생항원-특이적 T-세포를 생성하는데 사용될 수 있다. 환자에서 T-세포 요법에 사용하기 위한 치료량의 신생항원 특이적 T-세포를 생성하는 2가지 방법은 본원의 섹션 XVII.A. 및 XVII.B.에서 논의된다. 제1 방법은 환자 샘플로부터 동정된 신생항원-특이적 T-세포를 확장시키는 단계를 포함한다(섹션 XVII.A.). 제2 방법은 동정된 신생항원-특이적 T-세포의 TCR을 서열분석하고 서열분석된 TCR을 새로운 T-세포로 클로닝하는 단계를 포함한다(섹션 XVII.B.). 본원에 명시적으로 언급되지 않은 T-세포 요법에서 사용하기 위한 신생항원 특이적 T-세포를 생성하는 대안적인 방법은 또한 T-세포 요법에서 사용하기 위한 치료량의 신생항원 특이적 T-세포를 생성하는데 사용될 수 있다. 일단 이들 방법 중 하나 이상을 통해 신생항원-특이적 T-세포가 수득되면, 이들 신생항원-특이적 T-세포는 T-세포 요법을 위해 환자에게 주입될 수 있다.

XVIII.A. T-세포 요법을 위한 환자 샘플로부터 신생항원-특이적 기억 T-세포의 동정 및 확장

환자에서 T-세포 요법에 사용하기 위한 치료량의 신생항원 특이적 T-세포를 생성하는 제1 방법은 환자 샘플로부터 동정된 신생항원-특이적 T-세포를 확장시키는 단계를 포함한다.

구체적으로, 환자에서 T-세포 요법에 사용하기 위한 신생항원-특이적 T-세포를 치료량으로 확장시키기 위해, 환자의 암 세포에 의해 제시될 가능성이 가장 높은 신생항원 펩타이드의 세트는 상기 기재된 바와 같은 제시 모델을 사용하여 동정한다. 추가로, T-세포를 함유하는 환자 샘플은 환자로부터 수득한다. 환자 샘플은 환자의 말초 혈액, 종양-침윤 림프구(TIL), 또는 림프절 세포를 포함할 수 있다.

환자 샘플이 환자의 말초 혈액을 포함하는 구현예에서, 하기 방법은 신생항원-특이적 T-세포를 치료량으로 확장시키는데 사용될 수 있다. 일 구현예에서, 프라이밍이 수행될 수 있다. 또 다른 구현예에서, 이미-활성화된 T-세포는 상기 기재된 방법 중 하나 이상을 사용하여 동정될 수 있다. 또 다른 구현예에서, 프라이밍 및 이미-활성화된 T-세포의 동정 둘 다가 수행될 수 있다. 프라이밍 및 이미-활성화된 T-세포 동정 둘 다에 대한 이점은 표시된 특이성의 수를 최대화하는 것이다. 프라이밍 및 이미-활성화된 T-세포 동정 둘 다의 단점은 이 접근법이 어렵고 시간-소모적이라는 것이다. 또 다른 구현예에서, 반드시 활성화될 필요가 없는 신생항원-특이적 세포가 단리될 수 있다. 이러한 구현예에서, 이들 신생항원-특이적 세포의 항원-특이적 또는 비-특이적 확장이 또한 수행될 수 있다. 이들 프라이밍된 T-세포의 수집 후, 프라이밍된 T-세포는 신속 확장 프로토콜에 적용될 수 있다. 예를 들어, 일부 구현예에서, 프라이밍된 T-세포는 Rosenberg 신속 확장 프로토콜(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2978753/, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2305721/)에 적용될 수 있다^{153, 154}.

환자 샘플이 환자의 TIL을 포함하는 구현예에서, 하기 방법은 신생항원-특이적 T-세포를 치료량으로 확장시키는데 사용될 수 있다. 일 구현예에서, 신생항원-특이적 TIL은 생체외에서 사량체/다량체로 분류될 수 있고, 이어서 분류된 TIL은 상기 기재된 바와 같은 신속 확장 프로토콜에 적용될 수 있다. 또 다른 구현예에서, TIL의 신생항원-비특이적 확장이 수행될 수 있고, 이어서 신생항원-특이적 TIL은 사량체로 분류될 수 있고, 이어서 분류된 TIL은 상기 기재된 바와 같은 신속 확장 프로토콜에 적용될 수 있다. 또 다른 구현예에서, 항원-특이적 배양은 TIL을 신속 확장 프로토콜에 적용하기 전에 수행될 수 있다. (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4607110/, https://onlinelibrary.wiley.com/doi/pdf/10.1002/eji.201545849)^{155, 156}.

일부 구현예에서, Rosenberg 신속 확장 프로토콜은 변형될 수 있다. 예를 들어, 항-PD1 및/또는 항-41BB가 TIL 배양에 첨가되어 보다 신속 확장을 모의할 수 있다. (https://jitc.biomedcentral.com/articles/10.1186/s40425-016-0164-7)¹⁵⁷.

XVIII.B. 신생항원-특이적 T-세포의 동정, 동정된 신생항원-특이적 T-세포의 TCR 서열분석, 및 서열분석된 TCR의 새로운 T-세포로의 클로닝

환자에서 T-세포 요법에 사용하기 위한 치료량의 신생항원 특이적 T-세포를 생성하는 제2 방법은 환자 샘플로부터 신생항원-특이적 T-세포를 동정하는 단계, 동정된 신생항원-특이적 T-세포의 TCR을 서열분석하는 단계, 및 서열분석된 TCR을 새로운 T-세포로 클로닝하는 단계를 포함한다.

먼저, 신생항원-특이적 T-세포를 환자 샘플로부터 동정하고, 동정된 신생항원-특이적 T-세포의 TCR을 서열분석한다. T-세포가 단리될 수 있는 환자 샘플은 혈액, 림프절, 또는 종양 중 하나 이상을 포함할 수 있다. 보다 구체적으로, T-세포가 단리될 수 있는 환자 샘플은 말초 혈액 단핵 세포(PBMC), 종양-침윤 세포(TIL), 해리된 종양 세포(DTC), 시험관내 프라이밍된 T-세포, 및/또는 림프절로부터 단리된 세포 중 하나 이상을 포함할 수 있다. 이들 세포는 신선한 및/또는 동결될 수 있다. PBMC 및 시험관내 프라이밍된 T-세포는 암 환자 및/또는 건강한 대상체로부터 수득될 수 있다.

환자 샘플을 수득한 후, 샘플을 확장하고/하거나 프라이밍할 수 있다. 환자 샘플을 확장 및 프라이밍하는 다양한 방법이 구현될 수 있다. 일 구현예에서, 신선한 및/또는 동결된 PBMC는 펩타이드 또는 탠덤 미니-유전자의 존재 하에 모의될 수 있다. 또 다른 구현예에서, 신선한 및/또는 동결된 단리된 T-세포는 펩타이드 또는 탠덤 미니-유전자의 존재 하에 항원-제시 세포(APC)로 모의 및 프라이밍될 수 있다. APC의 예는 B-세포, 단핵구, 수지상 세포, 대식세포 또는 인공 항원 제시 세포(예컨대 관련 HLA 및 공-자극 분자를 제시하는 세포 또는 비드, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2929753에서 검토됨)를 포함한다. 또 다른 구현예에서, PBMC, TIL, 및/또는 단리된 T-세포는 시토카인(예를 들어, IL-2, IL-7, 및/또는 IL-15)의 존재 하에 자극될 수 있다. 또 다른 구현예에서, TIL 및/또는 단리된 T-세포는 최대 자극, 시토카인(들), 및/또는 영양 세포의 존재 하에 자극될 수 있다. 이러한 구현예에서, T-세포는 활성화 마커 및/또는 다량체(예를 들어, 사량체)에 의해 단리될 수 있다. 또 다른 구현예에서, TIL 및/또는 단리된 T-세포는 자극 및/또는 공-자극 마커(예를 들어, CD3 항체, CD28 항체, 및/또는 비드(예를 들어, DynaBeads)로 자극될 수 있다. 또 다른 구현예에서, DTC는 풍부한 배지 중 고용량의 IL-2로 영양 세포에서 신속 확장 프로토콜을 사용하여 확장될 수 있다..

이어서, 신생항원-특이적 T-세포가 동정 및 단리된다. 일부 구현예에서, T-세포는 사전 확장 없이 생체외 환자 샘플로부터 단리된다. 일 구현예에서, 섹션 XVI.과 관련하여 상기 기재된 방법은 환자 샘플로부터 신생항원-특이적 T-세포를 동정하는데 사용될 수 있다. 대안적인 구현예에서, 단리는 양성 선택에 의한 특정 세포 집단의 풍부화, 또는 음성 선택에 의한 특정 세포 집단의 고갈에 의해 수행된다. 일부 구현예에서, 양성 또는 음성 선택은 세포를 각각 양성으로 또는 음성으로 선택된 세포에서 상대적으로 더 높은 수준(마커^높음)으로 발현된 또는 표현된(마커+) 하나 이상의 표면 마커에 특이적으로 결합하는 하나 이상의 항체 또는 다른 결합제와 함께 인큐베이션함으로써 달성된다.

일부 구현예에서, T-세포는 비-T-세포, 예컨대 B 세포, 단핵구, 또는 다른 백혈구 세포, 예컨대 CD14에서 발현된 마커의 음성 선택에 의해 PBMC 샘플로부터 분리된다. 일부 양태에서, CD4+ 또는 CD8+ 선택 단계를 사용하여 CD4+ 헬퍼 및 CD8+ 세포독성 T-세포를 분리한다. 이러한 CD4+ 및 CD8+ 집단은 하나 이상의 나이브(naive), 기억, 및/또는 이펙터 T-세포 하위집단에서 상대적으로 더 높은 정도로 발현된 또는 표현된 마커에 대한 양성 또는 음성 선택에 의해 하위-집단으로 추가로 분류될 수 있다.　

일부 구현예에서, CD8+ 세포는 예컨대 각각의 하위집단과 관련된 표면 항원에 기초한 양성 또는 음성 선택에 의해, 나이브, 중추 기억, 이펙터 기억, 및/또는 중추 기억 줄기 세포가 추가로 풍부화되거나 또는 고갈된다. 일부 구현예에서, 중추 기억 T(TCM) 세포에 대한 풍부화는 투여 후 장기 생존, 확장, 및/또는 생착을 개선시키는 것과 같이 효능을 증가시키기 위해 수행되며, 일부 양태에서는 이러한 하위-집단에서 특히 강력하다. Terakura et al.(2012) Blood. 1:72-82; Wang et al.(2012) J Immunother. 35(9):689-701 참조. 일부 구현예에서, TCM-풍부화된 CD8+ T-세포 및 CD4+ T-세포를 조합하는 것은 효능을 추가로 향상시킨다.　

구현예에서, 기억 T-세포는 CD8+ 말초 혈액 림프구의 CD62L+ 및 CD62L- 서브셋 둘 다에 존재한다. PBMC는 예컨대 항-CD8 및 항-CD62L 항체를 사용하여 CD62L-CD8+ 및/또는 CD62L+CD8+ 분획을 풍부화하거나 또는 고갈시킬 수 있다.　

일부 구현예에서, 중추 기억 T(TCM) 세포에 대한 풍부화는 CD45RO, CD62L, CCR7, CD28, CD3, 및/또는 CD 127의 양성 또는 높은 표면 발현에 기초하며; 일부 양태에서, CD45RA 및/또는 그랜자임 B를 발현하거나 또는 고도로 발현하는 세포에 대한 음성 선택에 기초한다. 일부 양태에서, TCM 세포에 대해 풍부화된 CD8+ 집단의 단리는 CD4, CD14, CD45RA를 발현하는 세포의 고갈, 및 CD62L을 발현하는 세포에 대한 양성 선택 또는 풍부화에 의해 수행된다. 일 양태에서, 중추 기억 T(TCM) 세포에 대한 풍부화는 CD4 발현에 기초하여 선택된 세포의 음성 분획으로 시작하여 수행되며, 이는 CD14 및 CD45RA의 발현에 기초한 음성 선택, 및 CD62L에 기초한 양성 선택에 적용된다. 일부 양태에서 이러한 선택은 동시에 수행되고 다른 양태에서 어느 순서로든 순차적으로 수행된다. 일부 양태에서, CD8+ 세포 집단 또는 하위집단을 제조하는데 사용되는 동일한 CD4 발현-기반 선택 단계는 또한 CD4+ 세포 집단 또는 하위-집단을 생성하는데 사용되어, CD4-기반 분리로부터의 양성 및 음성 분획 둘 다가 임의적으로 하나 이상의 추가 양성 또는 음성 선택 단계 후 방법의 후속 단계에서 유지 및 사용되도록 한다.

특정 예에서, PBMC 또는 다른 백혈구 세포 샘플의 샘플은 CD4+ 세포의 선택에 적용되며, 여기서 음성 및 양성 분획 둘 다가 유지된다. 이어서 음성 분획은 CD14 및 CD45RA 또는 ROR1의 발현에 기초한 음성 선택, 및 CD62L 또는 CCR7과 같은 중추 기억 T-세포의 마커 특징에 기초한 양성 선택에 적용되며, 여기서 양성 및 음성 선택은 어느 순서로든 수행된다.　

CD4+ T 헬퍼 세포는 세포 표면 항원을 갖는 세포 집단을 동정함으로써 나이브, 중추 기억, 및 이펙터 세포로 분류된다. CD4+ 림프구는 표준 방법에 의해 수득될 수 있다. 일부 구현예에서, 나이브 CD4+ T 림프구는 CD45RO-, CD45RA+, CD62L+, CD4+ T-세포이다. 일부 구현예에서, 중추 기억 CD4+ 세포는 CD62L+ 및 CD45RO+이다. 일부 구현예에서, 이펙터 CD4+ 세포는 CD62L- 및 CD45RO-이다.　

일 예에서, 음성 선택에 의해 CD4+ 세포를 풍부화하기 위해, 단클론 항체 칵테일은 전형적으로 CD14, CD20, CD11b, CD16, HLA-DR, 및 CD8에 대한 항체를 포함한다. 일부 구현예에서, 항체 또는 결합 파트너는 고체 지지체 또는 매트릭스, 예컨대 자기 비드 또는 상자성 비드에 결합하여 양성 및/또는 음성 선택을 위한 세포의 분리를 허용한다. 예를 들어, 일부 구현예에서, 세포 및 세포 집단은 면역-자기(또는 친화성-자기) 분리 기술(Methods in Molecular Medicine, vol. 58: Metastasis Research Protocols, Vol. 2: Cell Behavior In Vitro and In Vivo, p 17-25 Edited by: S. A. Brooks and U. Schumacher Humana Press Inc., Totowa, N.J.에서 검토됨)을 사용하여 분리 또는 단리된다.　

일부 양태에서, 분리될 세포의 샘플 또는 조성물은 소형, 자기화가능 또는 자기 반응성 물질, 예컨대 자기 반응성 입자 또는 미세입자, 예컨대 상자성 비드(예를 들어, 예컨대 Dynabead 또는 MACS 비드)와 함께 인큐베이션된다. 자기 반응성 물질, 예를 들어, 입자는 일반적으로 결합 파트너, 예를 들어, 항체에 직접적으로 또는 간접적으로 부착되며, 이는 분자, 예를 들어, 세포에 존재하는 표면 마커, 세포, 또는 분리하는 것이 바람직한, 예를 들어, 음성으로 또는 양성으로 선택하는 것이 바람직한 세포의 집단에 특이적으로 결합한다.

일부 구현예에서, 자기 입자 또는 비드는 항체 또는 다른 결합 파트너와 같은 특이적 결합 구성원에 결합된 자기 반응성 물질을 포함한다. 자기 분리 방법에 사용되는 널리 알려진 자기 반응성 물질은 많이 있다. 적합한 자기 입자는 Molday의 미국 특허 번호 제4,452,773호, 및 유럽 특허 명세서 EP 452342 B에 기재된 것들을 포함하며, 이는 본원에 참조로 포함된다. 콜로이드 크기 입자, 예컨대 Owen의 미국 특허 번호 제4,795,698호, 및 Liberti 등의 미국 특허 번호 제5,200,084호에 기재된 것들은 다른 예이다.

인큐베이션은 일반적으로 자기 입자 또는 비드에 부착된 이러한 항체 또는 결합 파트너에 특이적으로 결합하는 항체 또는 결합 파트너, 또는 분자, 예컨대 2차 항체 또는 다른 시약이 샘플 내에서 세포에 존재하는 경우 세포 표면 분자에 특이적으로 결합하는 조건 하에 수행된다.

일부 양태에서, 샘플은 자기장에 배치되고, 자기 반응성 또는 자기화성 입자가 부착된 세포는 자석에 부착되고 표지되지 않은 세포로부터 분리될 것이다. 양성 선택의 경우, 자석에 부착된 세포가 유지되며; 음성 선택의 경우, 부착되지 않은 세포(표지되지 않은 세포)가 유지된다. 일부 양태에서, 양성 및 음성 선택의 조합은 동일한 선택 단계 동안 수행되며, 여기서 양성 및 음성 분획은 유지되고 추가로 처리되거나 추가 분리 단계에 적용된다.

특정 구현예에서, 자기 반응성 입자는 1차 항체 또는 다른 결합 파트너, 2차 항체, 렉틴, 효소, 또는 스트렙타비딘으로 코팅된다. 특정 구현예에서, 자기 입자는 하나 이상의 마커에 특이적인 1차 항체의 코팅을 통해 세포에 부착된다. 특정 구현예에서, 비드 보다는 세포가 1차 항체 또는 결합 파트너로 표지되며, 이어서 세포-유형 특이적 2차 항체- 또는 다른 결합 파트너(예를 들어, 스트렙타비딘)-코팅된 자기 입자가 첨가된다. 특정 구현예에서, 스트렙타비딘-코팅된 자기 입자는 비오티닐화된 1차 또는 2차 항체와 함께 사용된다.

일부 구현예에서, 자기 반응성 입자는 후속 인큐베이션, 배양 및/또는 조작될 세포에 부착된 채로 남아있으며; 일부 양태에서, 상기 입자는 환자에게 투여하기 위해 세포에 부착된 채로 남아있다. 일부 구현예에서, 자기화성 또는 자기 반응성 입자는 세포로부터 제거된다. 세포로부터 자기화성 입자를 제거하는 방법은 알려져 있고, 예를 들어, 경쟁 비-표지된 항체, 자기화성 입자 또는 절단가능한 링커에 접합된 항체 등의 사용을 포함한다. 일부 구현예에서, 자기화성 입자는 생분해성이다.

일부 구현예에서, 친화성-기반 선택은 자기-활성화 세포 분류(MACS)(Miltenyi Biotech, 캘리포니아주 오번 소재)를 통해 이루어진다. 자기 활성화 세포 분류(MACS) 시스템은 자기화된 입자가 부착된 세포의 고순도 선택을 가능하게 한다. 특정 구현예에서, MACS는 외부 자기장의 적용 후 비-표적 및 표적 종이 순차적으로 용리되는 모드에서 작동한다. 즉, 자기화된 입자에 부착된 세포는 제자리에서 유지되는 반면 부착되지 않은 종은 용리된다. 이어서, 이 제1 용리 단계가 완료된 후, 자기장에 포획되고 용리되는 것으로부터 방지된 종은 이들이 융출 및 회수될 수 있도록 하는 일부 방식에서 자유롭다. 특정 구현예에서, 비-대형 T-세포가 표지되고 세포의 이종 집단으로부터 고갈된다.

특정 구현예에서, 단리 및 분리는 방법의 단리, 세포 제조, 분리, 처리, 인큐베이션, 배양, 및/또는 제제화 단계 중 하나 이상을 수행하는 시스템, 장치, 또는 기구를 사용하여 수행된다. 일부 양태에서, 시스템은 예를 들어, 오류, 사용자 취급 및/또는 오염을 최소화하기 위해 폐쇄 또는 멸균 환경에서 이들 단계 각각을 수행하는데 사용된다. 일 예에서, 시스템은 국제 특허 출원, 공개 번호 WO2009/072003, 또는 US 20110003380 A1에 기재된 바와 같은 시스템이다.

일부 구현예에서, 시스템 또는 기구는 통합 또는 완비 시스템에서, 및/또는 자동화 또는 프로그램가능한 방식으로 단리, 처리, 조작, 및 제제화 단계 중 하나 이상, 예를 들어 전부를 수행한다. 일부 양태에서, 시스템 또는 기구는 시스템 또는 기구와 통신하는 컴퓨터 및/또는 컴퓨터 프로그램을 포함하며, 이는 사용자가 처리, 단리, 조작, 및 제제화 단계의 결과를 프로그램화, 제어, 평가하고/하거나 다양한 양태를 조정하는 것을 허용한다.

일부 양태에서, 분리 및/또는 다른 단계는 예를 들어, 폐쇄 및 멸균 시스템에서 임상-규모 수준으로 세포의 자동 분리를 위해 CliniMACS 시스템(Miltenyi Biotic)을 사용하여 수행된다. 구성요소는 통합 마이크로컴퓨터, 자기 분리 장치, 연동 펌프, 및 다양한 핀치 밸브를 포함할 수 있다. 통합 컴퓨터는 일부 양태에서 기기의 모든 구성요소를 제어하고 시스템이 표준화된 순서로 반복된 절차를 수행하도록 지시한다. 자기 분리 장치는 일부 양태에서 이동성 영구 자석 및 선택 칼럼용 홀더를 포함한다. 연동 펌프는 튜빙 세트 전반에 걸쳐 유속을 제어하고, 핀치 밸브와 함께 시스템을 통한 완충액의 제어된 흐름 및 세포의 지속적인 현탁을 보장한다.

CliniMACS 시스템은 일부 양태에서 멸균, 비-발열성 용액에 공급된 항체-커플링된 자기화성 입자를 사용한다. 일부 구현예에서, 세포를 자기 입자로 표지한 후 세포를 세척하여 과량의 입자를 제거한다. 이어서 세포 제조 백을 튜빙 세트에 연결한 다음, 완충액을 함유하는 백 및 세포 수집 백에 연결한다. 튜빙 세트는 사전-칼럼 및 분리 칼럼을 포함한 사전-어셈블리된 멸균 튜빙으로 이루어지고, 일회용이다. 분리 프로그램의 개시 후, 시스템은 자동적으로 세포 샘플을 분리 칼럼 상에 적용한다. 표지된 세포는 칼럼 내에 유지되는 반면, 표지되지 않은 세포는 일련의 세척 단계에 의해 제거된다. 일부 구현예에서, 본원에 기재된 방법과 함께 사용하기 위한 세포 집단은 표지되지 않고 칼럼에 유지되지 않는다. 일부 구현예에서, 본원에 기재된 방법과 함께 사용하기 위한 세포 집단은 표지되고 칼럼에 유지된다. 일부 구현예에서, 본원에 기재된 방법과 함께 사용하기 위한 세포 집단은 자기장의 제거 후 칼럼으로부터 용리되고, 세포 수집 백 내에 수집된다.

특정 구현예에서, 분리 및/또는 다른 단계는 CliniMACS Prodigy 시스템(Miltenyi Biotec)을 사용하여 수행된다. CliniMACS Prodigy 시스템은 일부 양태에서 자동 세척 및 원심분리에 의한 세포의 분획화를 허용하는 세포 프로레싱 유니티가 장착되어 있다. CliniMACS Prodigy 시스템은 또한 공급원 세포 생성물의 육안으로 보이는 층을 파악함으로써 최적 세포 분획화 종점을 결정하는 온보드 카메라 및 이미지 인식 소프트웨어를 포함할 수 있다. 예를 들어, 말초 혈액은 적혈구, 백혈구 세포 및 혈장 층으로 자동으로 분리될 수 있다. CliniMACS Prodigy 시스템은 또한 예를 들어, 세포 분화 및 확장, 항원 로딩, 및 장기 세포 배양과 같은 세포 배양 프로토콜을 수행하는 통합 세포 배양 챔버를 포함할 수 있다. 입력 포트는 배지의 멸균 제거 및 보급을 허용할 수 있고 세포는 통합 현미경을 사용하여 모니터링할 수 있다. 예를 들어, Klebanoff et al. (2012) J Immunother. 35(9): 651-660, Terakura et al. (2012) Blood. 1:72-82, 및 Wang et al. (2012) J Immunother. 35(9):689-701 참조.

일부 구현예에서, 본원에 기재된 세포 집단은 유동 세포분석법을 통해 수집 및 풍부화(또는 고갈)되며, 여기서 복수의 세포 표면 마커로 염색된 세포는 유동성 스트림으로 운반된다. 일부 구현예에서, 본원에 기재된 세포 집단은 제조 규모 (FACS)-분류를 통해 수집 및 풍부화(또는 고갈)된다. 특정 구현예에서, 본원에 기재된 세포 집단은 FACS-기반 검출 시스템과 조합하여 마이크로전자기계 시스템(MEMS) 칩을 사용함으로써 수집 및 풍부화(또는 고갈)된다(예를 들어, WO 2010/033140, Cho et al.(2010) Lab Chip 10, 1567-1573; 및 Godin et al.(2008) J Biophoton. 1(5):355-376 참조). 두 경우 모두에서, 세포는 복수의 마커로 표지되어 고순도로 널리 정의된 T-세포 서브셋의 단리를 허용할 수 있다.

일부 구현예에서, 항체 또는 결합 파트너는 하나 이상의 검출가능한 마커로 표지되어, 양성 및/또는 음성 선택을 위한 분리를 용이하게 한다. 예를 들어, 분리는 형광으로 표지된 항체에 대한 결합에 기초할 수 있다. 일부 예에서, 하나 이상의 세포 표면 마커에 특이적인 항체 또는 다른 결합 파트너의 결합에 기초한 세포의 분리는 예를 들어, 유동-세포분석 검출 시스템과 조합하여, 제조 규모 (FACS) 및/또는 마이크로전자기계 시스템(MEMS) 칩을 포함한 형광-활성화 세포 분류(FACS)에 의해서와 같이 유동성 스트림으로 운반된다. 이러한 방법은 복수의 마커에 기초하여 양성 및 음성 선택을 동시에 허용한다.

일부 구현예에서, 제조 방법은 세포를 단리, 인큐베이션, 및/또는 조작 전 또는 후에 동결, 예를 들어 저온보존하는 단계를 포함한다. 일부 구현예에서, 동결 및 후속 해동 단계는 세포 집단에서 과립구 및 어느 정도 단핵구를 제거한다. 일부 구현예에서, 세포는 예를 들어 혈장 및 혈소판을 제거하기 위해 세척 단계 후 동결 용액에 현탁된다. 임의의 다양한 알려진 동결 용액 및 파라미터가 일부 양태에서 사용될 수 있다. 일 예는 20% DMSO 및 8% 인간 혈청 알부민(HSA), 또는 다른 적합한 세포 동결 배지를 함유하는 PBS의 사용을 수반한다. 이어서 이는 DMSO 및 HSA의 최종 농도가 각각 10% 및 4%이도록 배지와 1:1로 희석될 수 있다. 다른 예는 Cryostor®, CTL-Cryo™ ABC 동결 배지 등을 포함한다. 이어서 세포를 분 당 1도의 속도로 -80℃로 동결시키고 액체 질소 저장 탱크의 기상에 저장한다.

일부 구현예에서, 제공된 방법은 재배, 인큐베이션, 배양, 및/또는 유전자 조작 단계를 포함한다. 예를 들어, 일부 구현예에서, 고갈된 세포 집단 및 배양-개시 조성물을 인큐베이션 및/또는 조작하는 방법이 제공된다.

따라서, 일부 구현예에서, 세포 집단은 배양-개시 조성물에서 인큐베이션된다. 인큐베이션 및/또는 조작은 배양 또는 재배 세포를 위한 배양 용기, 예컨대 장치, 챔버, 웰, 칼럼, 튜브, 튜빙 세트, 밸브, 바이알, 배양 접시, 백, 또는 다른 용기에서 수행될 수 있다.

일부 구현예에서, 세포는 유전자 조작 전에 또는 그와 관련하여 인큐베이션 및/또는 배양된다. 인큐베이션 단계는 배양, 재배, 자극, 활성화, 및/또는 번식을 포함할 수 있다. 일부 구현예에서, 조성물 또는 세포는 자극 조건 또는 자극제의 존재 하에 인큐베이션된다. 이러한 조건은 집단에서 세포의 증식, 확장, 활성화, 및/또는 생존을 유도하고/하거나, 항원 노출을 모방하고/하거나, 유전자 조작을 위해, 예컨대 재조합 항원 수용체의 도입을 위해 세포를 프라이밍하도록 고안된 것들을 포함한다.

조건은 특정한 배지, 온도, 산소 함량, 이산화탄소 함량, 시간, 작용제, 예를 들어 영양소, 아미노산, 항생제, 이온, 및/또는 자극 인자, 예컨대 시토카인, 케모카인, 항원, 결합 파트너, 융합 단백질, 재조합 가용성 수용체, 및 세포를 활성화시키도록 고안된 임의의 다른 작용제 중 하나 이상을 포함할 수 있다.

일부 구현예에서, 자극 조건 또는 작용제는 하나 이상의 작용제, 예를 들어, TCR 복합체의 세포내 신호전달 도메인을 활성화시킬 수 있는 리간드를 포함한다. 일부 양태에서, 작용제는 T-세포에서 TCR/CD3 세포내 신호전달 캐스케이드를 켜거나 개시한다. 이러한 작용제는 예를 들어, 비드와 같은 고체 지지체, 및/또는 하나 이상의 시토카인에 결합된 TCR 구성요소 및/또는 공자극 수용체, 예를 들어, 항-CD3, 항-CD28에 특이적인 것들과 같은 항체를 포함할 수 있다. 임의적으로, 확장 방법은 항-CD3 및/또는 항 CD28 항체를 배양 배지에 (예를 들어, 적어도 약 0.5 ng/ml의 농도로) 첨가하는 단계를 추가로 포함할 수 있다. 일부 구현예에서, 자극제는 IL-2 및/또는 IL-15, 예를 들어, 적어도 약 10 단위/mL의 IL-2 농도를 포함한다.

일부 양태에서, 인큐베이션은 Riddell et al., Klebanoff et al.(2012) J Immunother. 35(9): 651-660, Terakura et al.(2012) Blood. 1:72-82, 및/또는 Wang et al.(2012) J Immunother. 35(9):689-701에 대해 미국 특허 번호 제6,040,177호에 기재된 것들과 같은 기술에 따라 수행된다.

일부 구현예에서, T-세포는 배양-개시 조성물 영양 세포, 예컨대 비분열 말초 혈액 단핵 세포(PBMC)에 첨가하는 단계, (예를 들어, 생성된 세포 집단이 확장될 초기 집단에서 각각의 T 림프구에 대해 적어도 약 5, 10, 20, 또는 40개 이상의 PBMC 영양 세포를 함유하도록 함) 및 배양물을 (예를 들어 T-세포의 수를 확장시키기에 충분한 시간 동안) 배양하는 단계에 의해 확장된다. 일부 양태에서, 비분할 영양 세포는 감마-조사된 PBMC 영양 세포를 포함할 수 있다. 일부 구현예에서, PBMC는 세포 분열을 방지하기 위해 약 3000 내지 3600 rad 범위에서 감마선으로 조사된다. 일부 구현예에서, PBMC 영양 세포는 미토마이신 C로 불활성화된다. 일부 양태에서, 영양 세포는 T-세포 집단의 첨가 전에 배양 배지에 첨가된다.

일부 구현예에서, 자극 조건은 인간 T 림프구의 성장에 적합한 온도, 예를 들어, 적어도 약 25℃, 일반적으로 적어도 약 30℃, 및 일반적으로 대략 37℃를 포함한다. 임의적으로, 인큐베이션은 비분할 EBV-형질전환 림프아구성 세포(LCL)를 영양 세포로서 첨가하는 단계를 추가로 포함할 수 있다. LCL은 약 6000 내지 10,000 rad 범위에서 감마선으로 조사될 수 있다. LCL 영양 세포는 일부 양태에서 적어도 약 10:1의 LCL 영양 세포 대 초기 T 림프구의 비와 같은 임의의 적합한 양으로 제공된다.

구현예에서, 항원-특이적 T-세포, 예컨대 항원-특이적 CD4+ 및/또는 CD8+ T-세포는 나이브 또는 항원 특이적 T 림프구를 항원으로 자극함으로써 수득된다. 예를 들어, 항원-특이적 T-세포주 또는 클론은 감염된 대상체로부터 T-세포를 단리하고 시험관내 세포를 동일한 항원으로 자극함으로써 사이토메갈로바이러스 항원에 대해 생성될 수 있다.

일부 구현예에서, 신생항원-특이적 T-세포는 기능성 검정(예를 들어, ELISpot)으로 자극 후 동정 및/또는 단리된다. 일부 구현예에서, 신생항원-특이적 T-세포는 세포내 시토카인 염색에 의해 다기능성 세포를 분류함으로써 단리된다. 일부 구현예에서, 신생항원-특이적 T-세포는 활성화 마커(예를 들어, CD137, CD38, CD38/HLA-DR 이중-양성, 및/또는 CD69)를 사용하여 동정 및/또는 단리된다. 일부 구현예에서, 신생항원-특이적 CD8+, 자연 킬러 T-세포, 기억 T-세포, 및/또는 CD4+ T-세포는 부류 I 또는 부류 II 다량체 및/또는 활성화 마커를 사용하여 동정 및/또는 단리된다. 일부 구현예에서, 신생항원-특이적 CD8+ 및/또는 CD4+ T-세포는 기억 마커(예를 들어, CD45RA, CD45RO, CCR7, CD27, 및/또는 CD62L)를 사용하여 동정 및/또는 단리된다. 일부 구현예에서, 증식 세포가 동정 및/또는 단리된다. 일부 구현예에서, 활성화된 T-세포가 동정 및/또는 단리된다.

환자 샘플로부터 신생항원-특이적 T-세포의 동정 후, 동정된 신생항원-특이적 T-세포의 신생항원-특이적 TCR을 서열분석한다. 신생항원-특이적 TCR을 서열분석하기 위해, 먼저 TCR을 동정해야 한다. T-세포의 신생항원-특이적 TCR을 동정하는 하나의 방법은 T-세포를 적어도 하나의 신생항원을 포함하는 HLA-다량체(예를 들어, 사량체)와 접촉시키는 단계; 및 HLA-다량체와 TCR 사이의 결합을 통해 TCR을 동정하는 단계를 포함할 수 있다. 신생항원-특이적 TCR을 동정하는 또 다른 방법은 TCR을 포함하는 하나 이상의 T-세포를 수득하는 단계; 하나 이상의 T-세포를 적어도 하나의 항원 제시 세포(APC) 상에 제시된 적어도 하나 신생항원으로 활성화시키는 단계; 및 적어도 하나의 신생항원과의 상호작용에 의해 활성화된 하나 이상의 세포의 선택을 통해 TCR을 동정하는 단계를 포함할 수 있다.

신생항원-특이적 TCR의 동정 후, TCR이 서열분석될 수 있다. 일 구현예에서, 섹션 XVI.과 관련하여 상기 기재된 방법은 TCR을 서열분석하는데 사용될 수 있다. 또 다른 구현예에서, TCR의 TCRa 및 TCRb는 벌크-서열분석되고 이어서 빈도에 기초하여 쌍형성될 수 있다. 또 다른 구현예에서, TCR은 Howie et al., Science Translational Medicine 2015(doi: 10.1126/scitranslmed.aac5624)의 방법을 사용하여 서열분석 및 쌍형성될 수 있다. 또 다른 구현예에서, TCR은 Han et al., Nat Biotech 2014(PMID 24952902, doi 10.1038/nbt.2938)의 방법을 사용하여 서열분석 및 쌍형성될 수 있다. 또 다른 구현예에서, 쌍형성된 TCR 서열은 https://www.biorxiv.org/content/early/2017/05/05/134841 및 https://patents.google.com/patent/US20160244825A1/에 기재된 방법을 사용하여 수득될 수 있다^{158, 159}.

또 다른 구현예에서, T-세포의 클론 집단은 제한 희석에 의해 생성될 수 있고, 이어서 T-세포의 클론 집단의 TCRa 및 TCRb가 서열분석될 수 있다. 또 다른 구현예에서, T-세포는 웰 당 하나의 T-세포가 있도록 하는 웰이 있는 플레이트 상에서 분류될 수 있고, 이어서 각각의 웰에서 각각의 T-세포의 TCRa 및 TCRb가 서열분석 및 쌍형성될 수 있다.

다음으로, 신생항원-특이적 T-세포가 환자 샘플로부터 동정되고 동정된 신생항원-특이적 T-세포의 TCR이 서열분석된 후, 서열분석된 TCR은 새로운 T-세포로 클로닝된다. 이들 클로닝된 T-세포는 신생항원-특이적 수용체를 함유하며, 예를 들어, TCR을 포함한 세포외 도메인을 함유한다. 또한 이러한 세포의 집단, 및 이러한 세포를 함유하는 조성물이 제공된다.　 일부 구현예에서, 조성물 또는 집단은 이러한 세포에 대해 풍부화되며, 예컨대 여기서 TCR을 발현하는 세포는 T-세포 또는 CD8+ 또는 CD4+ 세포와 같은 특정 유형의 세포 또는 조성물에서 총 세포의 적어도 1, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 또는 99 퍼센트 초과를 구성한다.　 일부 구현예에서, 조성물은 본원에 개시된 TCR을 함유하는 적어도 하나의 세포를 포함한다.　 조성물 중에서 예컨대 입양 세포 요법을 위한 제약 조성물 및 투여용 제제가 있다. 또한 대상체, 예를 들어, 환자에게 세포 및 조성물을 투여하는 치료 방법이 제공된다.

따라서 TCR(들)을 발현하는 유전자 조작 세포가 또한 제공된다. 세포는 일반적으로 진핵 세포, 예컨대 포유동물 세포이고, 전형적으로 인간 세포이다. 일부 구현예에서, 세포는 혈액, 골수, 림프, 또는 림프 기관으로부터 유래되고, 면역 시스템의 세포, 예컨대 선천성 또는 적응성 면역력의 세포, 예를 들어, 림프구를 포함한 골수성 또는 림프구성 세포, 전형적으로 T-세포 및/또는 NK 세포이다. 다른 예시적인 세포는 줄기 세포, 예컨대 유도된 다능성 줄기 세포(iPSC)를 포함한 다분화능 및 다능성 줄기 세포를 포함한다. 세포는 전형적으로 1차 세포, 예컨대 대상체로부터 직접적으로 단리되고/되거나 대상체로부터 단리되고 동결된 것들이다. 일부 구현예에서, 세포는 T-세포 또는 다른 세포 유형의 하나 이상의 서브셋, 예컨대 전체 T-세포 집단, CD4+ 세포, CD8+ 세포, 및 그의 하위집단, 예컨대 기능, 활성화 상태, 성숙도, 분화 가능성, 확장, 재순환, 국소화, 및/또는 지속 용량, 항원-특이성, 항원 수용체의 유형, 특정 기관 또는 구획에서의 존재, 마커 또는 시토카인 분비 프로파일, 및/또는 분화 정도에 의해 정의된 것들을 포함한다. 치료될 대상체과 관련하여, 세포는 동종 및/또는 자가 세포일 수 있다. 방법 중에는 기성 방법을 포함한다. 일부 양태에서, 예컨대 기성 기술의 경우, 세포는 줄기 세포, 예컨대 유도된 다능성 줄기 세포(iPSC)와 같이 다능성 및/또는 다분화능이 있다. 일부 구현예에서, 상기 방법은 대상체로부터 세포를 단리하는 단계, 그들을 본원에 기재된 바와 같이 제조, 처리, 배양, 및/또는 조작하는 단계, 및, 그들을 동결보존 전 또는 후에 동일한 환자에게 재도입하는 단계를 포함한다.

T-세포 및/또는 CD4+ 및/또는 CD8+ T-세포의 하위-유형 및 하위집단 중에는 나이브 T(TN) 세포, 이펙터 T-세포(TEFF), 기억 T-세포 및 그의 하위-유형, 예컨대 줄기 세포 기억 T(TSCM), 중추 기억 T(TCM), 이펙터 기억 T(TEM), 또는 말단 분화된 이펙터 기억 T-세포, 종양-침윤 림프구(TIL), 미성숙 T-세포, 성숙 T-세포, 헬퍼 T-세포, 세포독성 T-세포, 점막-관련 불변 T(MALT) 세포, 자연 발생 및 적응성 조절 T(Treg) 세포, 헬퍼 T-세포, 예컨대 TH1 세포, TH2 세포, TH3 세포, TH17 세포, TH9 세포, TH22 세포, 여포성 헬퍼 T-세포, 알파/베타 T-세포, 및 델타/감마 T-세포가 있다.

일부 구현예에서, 세포는 자연 킬러(NK) 세포이다. 일부 구현예에서, 세포는 단핵구 또는 과립구, 예를 들어, 골수성 세포, 대식세포, 호중구, 수지상 세포, 비만 세포, 호산구, 및/또는 호염구이다.

세포는 발현을 감소시키거나 내인성 TCR을 녹아웃시키기 위해 유전자 변형될 수 있다.　 이러한 변형은 Mol Ther Nucleic Acid s. 2012 Dec; 1(12): e63; Blood. 2011 Aug 11;118(6):1495-503; Blood. 2012 Jun 14; 119(24): 5697-5705; Torikai, Hiroki et al "HLA and TCR Knockout by Zinc Finger Nucleases: Toward "off-the-Shelf" Allogeneic T-Cell Therapy for CD19+ Malignancies.." Blood 116.21(2010): 3766; Blood. 2018 Jan 18;131(3):311-322. doi: 10.1182/blood-2017-05-787598; 및 WO2016069283에 기재되어 있으며, 이들 전문은 참조로 포함된다.

세포는 시토카인 분비를 촉진하도록 유전자 변형될 수 있다. 이러한 변형은 Hsu C, Hughes MS, Zheng Z, Bray RB, Rosenberg SA, Morgan RA. Primary human T lymphocytes engineered with a codon-optimized IL-15 gene resist cytokine withdrawal-induced apoptosis and persist long-term in the absence of exogenous cytokine. J Immunol. 2005;175:7226-34; Quintarelli C, Vera JF, Savoldo B, Giordano Attianese GM, Pule M, Foster AE, Co-expression of cytokine and suicide genes to enhance the activity and safety of tumor-specific cytotoxic T lymphocytes. Blood. 2007;110:2793-802; 및 Hsu C, Jones SA, Cohen CJ, Zheng Z, Kerstann K, Zhou J, Cytokine-independent growth and clonal expansion of a primary human CD8+ T-cell clone following retrovirus transduction with the IL-15 gene. Blood. 2007;109:5168-77에 기재되어 있다.

T-세포 및 종양-분비된 케모카인에서 케모카인 수용체의 미스매칭은 T-세포의 종양 미세환경으로의 차선의 트래픽킹을 설명하는 것으로 제시되었다. 요법의 효능을 개선시키기 위해, 세포는 종양 미세 환경에서 케모카인의 인식을 증가시키도록 유전자 변형될 수 있다. 이러한 변형의 예는 Moon, EKCarpenito, CSun, JWang, LCKapoor, VPredina, J Expression of a functional CCR2 receptor enhances tumor localization and tumor eradication by retargeted human T-cells expressing a mesothelin-specific chimeric antibody receptor.Clin Cancer Res. 2011; 17: 4719-4730; 및 Craddock, JALu, ABear, APule, MBrenner, MKRooney, CM et al. Enhanced tumor trafficking of GD2 chimeric antigen receptor T-cells by expression of the chemoki cytosine daminase ne receptor CCR2b.J Immunother. 2010; 33: 780-788에 기재되어 있다.

세포는 CD28 및 41BB과 같은 공자극/향상 수용체의 발현을 향상시키도록 유전자 변형될 수 있다.

T-세포 요법의 부작용은 시토카인 방출 증후군 및 연장된 B-세포 고갈을 포함할 수 있다.　 수용자 세포에서 자살/안전 스위치의 도입은 세포-기반 요법의 안전 프로파일을 개선시킬 수 있다.　 따라서, 세포는 자살/안전 스위치를 포함하도록 유전자 변형될 수 있다.　 자살/안전 스위치는 유전자가 발현되는 세포에 작용제, 예를 들어 약물에 대한 민감성을 부여하고 세포가 작용제와 접촉하거나 그에 노출될 때 세포를 죽게 하는 유전자일 수 있다. 예시적인 자살/안전 스위치는 Protein Cell. 2017 Aug; 8(8): 573-589에 기재되어 있다. 자살/안전 스위치는 HSV-TK일 수 있다.　 자살/안전 스위치는 시토신 디아미나제, 퓨린 뉴클레오시드 포스포릴라제, 또는 니트로리덕타제일 수 있다. 자살/안전 스위치는 미국 특허 출원 공개 번호 US20170166877A1에 기재된 RapaCIDe^TM일 수 있다.　 자살/안전 스위치 시스템은 Haematologica. 2009 Sep; 94(9): 1316-1320에 기재된 CD20/리툭시맙일 수 있다.　 이들 참고문헌은 그 전문이 참조로 포함된다.

TCR은 헤테로이량체화 소분자의 존재 하에서만 어셈블리하는 분할 수용체로서 수용자 세포에 도입될 수 있다.　 이러한 시스템은 Science. 2015 Oct 16; 350(6258): aab4077, 및 미국 특허 번호 제9,587,020호에 기재되어 있으며, 이들은 본원에 참조로 포함된다.

일부 구현예에서, 세포는 하나 이상의 핵산, 예를 들어, 본원에 개시된 TCR을 인코딩하는 폴리뉴클레오티드를 포함하며, 여기서 폴리뉴클레오티드는 유전자 조작을 통해 도입되어 본원에 개시된 바와 같은 재조합 또는 유전자 조작된 TCR을 발현시킨다. 일부 구현예에서, 핵산은 이종, 즉, 정상적으로 세포 또는 세포로부터 수득된 샘플, 예컨대 또 다른 유기체 또는 세포로부터 수득된 것에 존재하지 않으며, 예를 들어, 조작되는 세포 및/또는 이러한 세포가 유래되는 유기체에서 통상적으로 발견되지 않는다. 일부 구현예에서, 핵산은 자연에서 발견되지 않는 핵산과 같이 자연적으로 발생하지 않으며, 복수의 상이한 세포 유형으로부터의 다양한 도메인을 인코딩하는 핵산의 키메라 조합을 포함하는 것을 포함한다.

핵산은 코돈-최적화된 뉴클레오티드 서열을 포함할 수 있다. 특정한 이론 또는 메커니즘에 구속되지 않으면서, 뉴클레오티드 서열의 코돈 최적화는 mRNA 전사체의 번역 효율을 증가시키는 것으로 여겨진다. 뉴클레오티드 서열의 코돈 최적화는 천연 코돈을 동일한 아미노산을 인코딩하는 또 다른 코돈으로 대체하는 것을 수반할 수 있지만, 세포 내에서 보다 용이하게 이용가능한 tRNA에 의해 번역될 수 있어서, 번역 효율을 증가시킬 수 있다. 또한 뉴클레오티드 서열의 최적화는 번역을 방해할 수 있는 2차 mRNA 구조를 감소시켜서 번역 효율을 증가시킬 수 있다.

작제물 또는 벡터는 TCR을 수용자 세포에 도입하기 위해 사용될 수 있다.　 예시적인 작제물이 본원에 기재되어 있다.　 TCR의 알파 및 베타 쇄를 인코딩하는 폴리뉴클레오티드는 단일 작제물 또는 별개의 작제물 내에 있을 수 있다.　 알파 및 베타 쇄를 인코딩하는 폴리뉴클레오티드는 프로모터, 예를 들어, 이종 프로모터에 작동가능하게 연결될 수 있다. 이종 프로모터는 강한 프로모터, 예를 들어, EF1알파, CMV,　PGK1, Ubc, 베타 액틴, CAG 프로모터 등일 수 있다.　 이종 프로모터는 약한 프로모터일 수 있다.　 이종 프로모터는 유도성 프로모터일 수 있다.　 예시적인 유도성 프로모터는 TRE, NFAT, GAL4, LAC 등을 포함하나 이에 제한되지는 않는다.　 다른 예시적인 유도성 발현 시스템은 미국 특허 번호 제5,514,578호; 제6,245,531호; 제7,091,038호 및 유럽 특허 번호 제0517805호에 기재되어 있으며, 이들 전문은 참조로 포함된다.　

또한 TCR을 수용자 세포에 도입하기 위한 작제물은 신호 펩타이드를 인코딩하는 폴리뉴클레오티드(신호 펩타이드 요소)를 포함할 수 있다.　 신호 펩타이드는 도입된 TCR의 표면 트래픽킹을 촉진시킬 수 있다.　 예시적인 신호 펩타이드는 CD8 신호 펩타이드, 면역글로불린 신호 펩타이드를 포함하나 이에 제한되지는 않으며, 여기서 특정 예는 GM-CSF 및 IgG 카파를 포함한다.　　이러한 신호 펩타이드는 Trends Biochem Sci. 2006 Oct;31(10):563-71. Epub 2006 Aug 21; 및 An, et al. "Construction of a New Anti-CD19 Chimeric Antigen Receptor and the Anti-Leukemia Function Study of the Transduced T-cells." Oncotarget 7.9 (2016): 10638-10649. PMC. Web. 16 Aug. 2018에 기재되어 있으며; 이는 본원에 참조로 포함된다.

일부 경우에, 예를 들어, 알파 및 베타 쇄가 단일 작제물 또는 오픈 리딩 프레임으로부터 발현되는 경우, 또는 마커 유전자가 작제물에 포함되는 경우, 작제물은 리보솜 스킵 서열을 포함할 수 있다.　 리보솜 스킵 서열은 2A 펩타이드, 예를 들어, P2A 또는 T2A 펩타이드일 수 있다.　 예시적인 P2A 및 T2A 펩타이드는 Scientific Reports volume　7, Article　number:　2193(2017)에 기재되어 있으며, 이의 전문은 본원에 참조로 포함된다. 일부 경우에, FURIN/PACE 절단 부위는 2A 요소의 상류에 도입된다.　 FURIN/PACE 절단 부위는 예를 들어, http://www.nuolan.net/substrates.html에 기재되어 있다.　　또한 절단 펩타이드는 인자 Xa 절단 부위일 수 있다.　 알파 및 베타 쇄가 단일 작제물 또는 오픈 리딩 프레임으로부터 발현되는 경우에, 작제물은 내부 리보솜 진입 부위(IRES)를 포함할 수 있다.　

작제물은 하나 이상의 마커 유전자를 추가로 포함할 수 있다.　 예시적인 마커 유전자는 GFP, 루시퍼라제, HA, lacZ를 포함하나 이에 제한되지는 않는다.　 마커는 당업자에게 알려져 있는 바와 같이, 선택가능한 마커, 예컨대 항생제 내성 마커, 중금속 내성 마커, 또는 살생물제 내성 마커일 수 있다.　 마커는 영양요구성 숙주에서 사용하기 위한 상보성 마커일 수 있다.　 예시적인 상보성 마커 및 영양요구성 숙주는 Gene. 2001 Jan 24;263(1-2):159-69에 기재되어 있다. 이러한 마커는 IRES, 프레임시프트 서열, 2A 펩타이드 링커, TCR과의 융합을 통해 발현되거나, 별개의 프로모터로부터 별개로 발현될 수 있다.　

TCR을 수용자 세포로 도입하기 위한 예시적인 벡터 또는 시스템은 아데노-관련 바이러스, 아데노바이러스, 아데노바이러스 + 변형된 백시니아, 앙카라 바이러스(MVA), 아데노바이러스 + 레트로바이러스, 아데노바이러스 + 센다이 바이러스, 아데노바이러스 + 백시니아 바이러스, 알파바이러스(VEE) 레플리콘 백신, 안티센스 올리고뉴클레오티드, 비피도박테리움 롱검(Bifidobacterium longum), CRISPR-Cas9, 이. 콜라이(E. coli), 플라비바이러스, 유전자 총, 헤르페스바이러스, 단순 헤르페스 바이러스, 락토코쿠스 락티스(Lactococcus lactis), 전기천공법, 렌티바이러스, 리포펙틴, 리스테리아 모노사이토제니스(Listeria monocytogenes), 홍역 바이러스, 변형된 백시니아 앙카라 바이러스(MVA), mRNA 전기천공법, 네이키드/플라스미드 DNA, 네이키드/플라스미드 DNA + 아데노바이러스, 네이키드/플라스미드 DNA + 변형된 백시니아 앙카라 바이러스(MVA), 네이키드/플라스미드 DNA + RNA 전달, 네이키드/플라스미드 DNA + 백시니아 바이러스, 네이키드/플라스미드 DNA + 수포성 구내염 바이러스, 뉴캐슬병 바이러스, 비-바이러스, PiggyBac^TM(PB) 트랜스포존, 나노입자-기반 시스템, 폴리오바이러스, 폭스바이러스, 폭스바이러스 + 백시니아 바이러스, 레트로바이러스, RNA 전달, RNA 전달 + 네이키드/플라스미드 DNA, RNA 바이러스, 사카로마이세스 세레비지애(Saccharomyces cerevisiae), 살모넬라 타이피뮤리움(Salmonella typhimurium), 셈리키 삼림열 바이러스, 센다이 바이러스, 시겔라 다이센테리애(Shigella dysenteriae), 유인원 바이러스, siRNA, 잠자는 미녀 트랜스포존(Sleeping Beauty transposon), 스트렙토코쿠스 무탄스(Streptococcus mutans), 백시니아 바이러스, 베네수엘라 말 뇌염 바이러스 레플리콘, 수포성 구내염 바이러스, 및 비브리오 콜레라(Vibrio cholera)를 포함하나 이에 제한되지는 않는다.

바람직한 구현예에서, TCR은 아데노 관련 바이러스(AAV), 아데노바이러스, CRISPR-CAS9, 헤르페스바이러스, 렌티바이러스, 리포펙틴, mRNA 전기천공법, PiggyBac^TM(PB) 트랜스포존, 레트로바이러스, RNA 전달, 또는 잠자는 미녀 트랜스포존을 통해 수용자 세포로 도입된다.

일부 구현예에서, TCR을 수용자 세포로 도입하기 위한 벡터는 바이러스 벡터이다.　 예시적인 바이러스 벡터는 아데노바이러스 벡터, 아데노-관련 바이러스(AAV) 벡터, 렌티바이러스 벡터, 헤르페스 바이러스 벡터, 레트로바이러스 벡터 등을 포함한다.　 이러한 벡터가 본원에 기재되어 있다.

TCR을 수용자 세포로 도입하기 위한 TCR 작제물의 예시적인 구현예는 도 24에 도시되어 있다.　 일부 구현예에서, TCR 작제물은 5'-3' 방향으로 다음 폴리뉴클레오티드 서열을 포함한다: 프로모터 서열, 신호 펩타이드 서열, TCR β 가변(TCRβv) 서열, TCR β 불변(TCRβc) 서열, 절단 펩타이드(예를 들어, P2A), 신호 펩타이드 서열, TCR α 가변(TCRαv) 서열, 및 TCR α 불변(TCRαc) 서열.　 일부 구현예에서, 작제물의 TCRβc 및 TCRαc 서열은 하나 이상의 뮤린 영역, 예를 들어, 전체 뮤린 불변 서열 또는 본원에 기재된 바와 같은 인간 → 뮤린 아미노산 교환을 포함한다. 　일부 구현예에서, 작제물은 TCRαc 서열의 3', 절단 펩타이드 서열(예를 들어, T2A) 이어서 리포터 유전자를 추가로 포함한다.　 구현예에서, 작제물은 5'-3' 방향으로 다음 폴리뉴클레오티드 서열을 포함한다: 프로모터 서열, 신호 펩타이드 서열, TCR β 가변(TCRβv) 서열, 하나 이상의 뮤린 영역을 함유하는 TCR β 불변((TCRβc) 서열, 절단 펩타이드(예를 들어, P2A), 신호 펩타이드 서열, TCR α 가변(TCRαv) 서열, 및 하나 이상의 뮤린 영역을 함유하는 TCR α 불변(TCRαc) 서열, 절단 펩타이드(예를 들어, T2A), 및 리포터 유전자.　

도 25는 TCR을 요법 개발을 위한 발현 시스템으로 클로닝하기 위한 예시적인 P526 작제물 백본 뉴클레오티드 서열을 도시한다.

도 26은 환자 신생항원-특이적 TCR, 클론형 1을 요법 개발을 위한 발현 시스템으로 클로닝하기 위한 예시적인 작제물 서열을 도시한다.

도 27은 환자 신생항원-특이적 TCR, 클론형 3을 요법 개발을 위한 발현 시스템으로 클로닝하기 위한 예시적인 작제물 서열을 도시한다.

또한 TCR을 인코딩하는 단리된 핵산, 핵산을 포함하는 벡터, 및 벡터 및 핵산을 포함하는 숙주 세포, 뿐만 아니라 TCR의 생산을 위한 재조합 기술이 제공된다.

핵산은 재조합 핵산일 수 있다.　 재조합 핵산은 천연 또는 합성 핵산 세그먼트를 살아있는 세포에서 복제할 수 있는 핵산 분자, 또는 그의 복제 생성물에 결합시킴으로써 살아있는 세포 외부에서 구성될 수 있다. 본원의 목적을 위해, 복제는 시험관내 복제 또는 생체내 복제일 수 있다.

TCR의 재조합 생산을 위해, 이를 인코딩하는 핵산(들)은 단리되고 추가 클로닝(즉, DNA의 증폭) 또는 발현을 위해 복제가능한 벡터로 삽입될 수 있다. 일부 양태에서, 핵산은 예를 들어 전문이 참조로 포함된 미국 특허 번호 제5,204,244호에 기재된 바와 같이 상동 재조합에 의해 생성될 수 있다.

많은 상이한 벡터가 당업계에 알려져 있다. 벡터 구성요소는 일반적으로 예를 들어 전문이 참조로 포함된 미국 특허 번호 제5,534,615호에 기재된 바와 같이 다음 중 하나 이상을 포함한다: 신호 서열, 복제 기원, 하나 이상의 마커 유전자, 인핸서 요소, 프로모터, 및 전사 종결 서열.

TCR, 항체, 또는 그의 항원 결합 단편을 발현하기에 적합한 예시적인 벡터 또는 작제물은 예를 들어, pUC 시리즈(Fermentas Life Sciences), pBluescript 시리즈(Stratagene, 캘리포니아주 라호이아 소재), pET 시리즈(Novagen, 위스콘신주 매디슨 소재), pGEX 시리즈(Pharmacia Biotech, 스웨덴 웁살라 소재), 및 pEX 시리즈(Clontech, 캘리포니아주 팔로 알토 소재)를 포함한다. AGTlO, AGTl 1, AZapII(Stratagene), AEMBL4, 및 ANMl 149와 같은 박테리오파지 벡터가 또한 본원에 개시된 TCR을 발현하기에 적합하다.

XIX. 치료 개요 흐름도

도 28은 구현예에 따른, 맞춤형, 신생항원-특이적 치료를 환자에게 제공하는 방법의 흐름도이다. 다른 구현예에서, 상기 방법은 도 28에 도시된 것과 상이하고/하거나 추가적인 단계를 포함할 수 있다. 추가적으로, 방법의 단계는 다양한 구현예에서 도 28와 관련하여 기재된 순서와 상이한 순서로 수행될 수 있다.

제시 모델을 상기 기재된 바와 같은 질량 분광법 데이터를 사용하여 훈련한다(2801). 환자 샘플을 수득된다(2802). 일부 구현예에서, 환자 샘플은 종양 생검 및/또는 환자의 말초 혈액을 포함한다. 단계 2802에서 수득된 환자 샘플을 서열분석하여 환자 샘플로부터 종양 항원 펩타이드가 제시될 가능성을 예측하는 제시 모델에 입력하기 위한 데이터를 동정한다. 단계 2802에서 수득된 환자 샘플로부터 종양 항원 펩타이드의 제시 가능성을 훈련된 제시 모델을 사용하여 예측한다(2803). 치료 신생항원을 예측된 제시 가능성에 기초하여 환자에 대해 동정한다(2804). 다음으로, 또 다른 환자 샘플을 수득한다(2805). 환자 샘플은 환자의 말초 혈액, 종양-침윤 림프구(TIL), 림프, 림프절 세포, 및/또는 T-세포의 임의의 다른 공급원을 포함할 수 있다. 단계(2805)에서 수득된 환자 샘플을 신생항원-특이적 T-세포에 대해 생체내 스크리닝한다(2806).

치료 프로세스의 이 시점에서, 환자는 T-세포 요법 및/또는 백신 치료를 받을 수 있다. 백신 치료를 받기 위해, 환자의 T-세포가 특이적인 신생항원을 동정한다(2814). 이어서, 동정된 신생항원을 포함하는 백신을 생성한다(2815). 최종적으로, 백신을 환자에게 투여한다(2816).

T-세포 요법을 받기 위해, 신생항원-특이적 T-세포는 확장을 겪고/겪거나 새로운 신생항원-특이적 T-세포는 유전자 조작된다. T-세포 요법에서 사용하기 위한 신생항원-특이적 T-세포를 확장하기 위해, 세포를 간단히 확장하고(2807) 환자에게 주입한다(2808).

T-세포 요법을 위한 새로운 신생항원-특이적 T-세포를 유전자 조작하기 위해, 생체내 동정된 신생항원-특이적 T-세포의 TCR을 서열분석한다(2809). 다음으로, 이들 TCR을 발현 벡터로 클로닝한다(2810). 이어서 발현 벡터(2810)를 새로운 T-세포로 형질감염시킨다(2811). 형질감염된 T-세포를 확장시킨다(2812). 최종적으로, 확장된 T-세포를 환자에게 주입한다(2813).

환자는 T-세포 요법 및 백신 요법 둘 다를 받을 수 있다. 일 구현예에서, 환자는 먼저 백신 요법을 받고 이어서 T-세포 요법을 받는다. 이 접근법의 하나의 이점은 백신 요법이 종양-특이적 T-세포의 수 및 T-세포의 검출가능한 수준에 의해 인식된 신생항원의 수를 증가시킬 수 있다는 것이다.

또 다른 구현예에서, 환자는 T-세포 요법 이어서 백신 요법을 받을 수 있으며, 여기서 백신에 포함된 에피토프 세트는 T-세포 요법에 의해 표적화된 에피토프 중 하나 이상을 포함한다. 이 접근법의 하나의 이점은 백신의 투여가 치료적 T-세포의 확장 및 지속성을 촉진할 수 있다는 것이다.

XX. 예시 컴퓨터

도 29은 도 1 및 3에 도시된 개체들(entities)을 구현하기 위한 예시 컴퓨터(2900)를 도시한다. 컴퓨터(2900)는 칩셋(2904)에 연결된 적어도 하나의 프로세서(2902)를 포함한다. 칩셋(2904)은 메모리 컨트롤러 허브(2920) 및 입력/출력(I/O) 컨트롤러 허브(2922)를 포함한다. 메모리(2906) 및 그래픽 어댑터(2912)는 메모리 컨트롤러 허브(2920)에 연결되고, 디스플레이(2918)는 그래픽 어댑터(2912)에 연결된다. 저장 디바이스(2908), 입력 디바이스(2914), 및 네트워크 어댑터(2916)는 I/O 컨트롤러 허브(2922)에 연결된다. 컴퓨터(2900)의 다른 구현예는 상이한 구조를 갖는다.

저장 디바이스(2908)는 하드 드라이브, 컴팩트 디스크 읽기전용 메모리(CD-ROM), DVD 또는 고체상 메모리 디바이스와 같은 일시적이지 않은 컴퓨터-판독가능한 저장 매체이다. 메모리(2906)는 프로세서(2902)에 의해 사용되는 지침 및 데이터를 유지한다. 입력 인터페이스(2914)는 터치 스크린 인터페이스, 마우스, 트랙볼, 또는 다른 유형의 포인팅 장치, 키보드 또는 일부 이들의 조합이며, 컴퓨터(2900)에 데이터를 입력하는데 사용된다. 일부 구현예에서, 컴퓨터(2900)는 사용자로부터의 제스처를 통해 입력 인터페이스(2914)로부터 입력(예를 들어, 명령)을 수신하도록 구성될 수 있다. 그래픽 어댑터(2912)는 이미지 및 다른 정보를 디스플레이(2918) 상에 디스플레이한다. 네트워크 어댑터(2916)는 컴퓨터(2900)를 하나 이상의 컴퓨터 네트워크에 연결시킨다.

컴퓨터(2900)는 본원에 설명된 기능성을 제공하기 위한 컴퓨터 프로그램 모듈을 실행하도록 적응된다. 본 명세서에 사용된 바와 같이, 용어 "모듈(module)"은 특정한 기능을 제공하기 위해 사용되는 컴퓨터 프로그램 로직을 지칭한다. 따라서, 모듈은 하드웨어, 펌웨어 및/또는 소프트웨어로 구현될 수 있다. 일 구현예에서, 프로그램 모듈은 저장 장치(2908)에 저장되고, 메모리(2906)에 장입되며, 프로세서(2902)에 의해 실행된다.

도 1의 개체에 의해 사용되는 컴퓨터(2900)의 유형은 구현예 및 독립체에 의해 요구되는 처리 능력에 따라 달라질 수 있다. 예를 들어, 제시 동정 시스템(160)은 서버 팜(farm)과 같은 네트워크를 통해 서로 통신하는 단일 컴퓨터(2900) 또는 다중 컴퓨터(2900)에서 동작할 수 있다. 컴퓨터(2900)는 그래픽 어댑터(2912) 및 디스플레이(2918)와 같은, 상기 기술된 성분 중 일부가 빠질 수 있다.

참고문헌

SEQUENCE LISTING <110> GRITSTONE ONCOLOGY, INC. <120> NEOANTIGEN IDENTIFICATION USING HOTSPOTS <130> 32669-41078/WO <140> PCT/US2018/055283 <141> 2018-10-10 <150> 62/570,569 <151> 2017-10-10 <160> 232 <170> PatentIn version 3.5 <210> 1 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 1 Tyr Val Tyr Val Ala Asp Val Ala Ala Lys 1 5 10 <210> 2 <211> 17 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 2 Tyr Glu Met Phe Asn Asp Lys Ser Gln Arg Ala Pro Asp Asp Lys Met 1 5 10 15 Phe <210> 3 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 3 Tyr Glu Met Phe Asn Asp Lys Ser Phe 1 5 <210> 4 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (3)..(3) <223> Pyrrolysine <220> <221> MOD_RES <222> (11)..(11) <223> Ile or Leu <400> 4 His Arg Xaa Glu Ile Phe Ser His Asp Phe Xaa 1 5 10 <210> 5 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (2)..(2) <223> Ile or Leu <220> <221> MOD_RES <222> (5)..(5) <223> Ile or Leu <220> <221> MOD_RES <222> (7)..(7) <223> Pyrrolysine <400> 5 Phe Xaa Ile Glu Xaa Phe Xaa Glu Ser Ser 1 5 10 <210> 6 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (4)..(4) <223> Pyrrolysine <400> 6 Asn Glu Ile Xaa Arg Glu Ile Arg Glu Ile 1 5 10 <210> 7 <211> 27 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (1)..(1) <223> Ile or Leu <220> <221> MOD_RES <222> (11)..(11) <223> Ile or Leu <220> <221> MOD_RES <222> (15)..(15) <223> Selenocysteine <220> <221> MOD_RES <222> (21)..(21) <223> Ile or Leu <220> <221> MOD_RES <222> (27)..(27) <223> Ile or Leu <400> 7 Xaa Phe Lys Ser Ile Phe Glu Met Met Ser Xaa Asp Ser Ser Xaa Ile 1 5 10 15 Phe Leu Lys Ser Xaa Phe Ile Glu Ile Phe Xaa 20 25 <210> 8 <211> 13 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (11)..(11) <223> Pyrrolysine <400> 8 Lys Asn Phe Leu Glu Asn Phe Ile Glu Ser Xaa Phe Ile 1 5 10 <210> 9 <211> 15 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (2)..(2) <223> Pyrrolysine <220> <221> MOD_RES <222> (14)..(14) <223> Ile or Leu <400> 9 Phe Xaa Glu Ile Phe Asn Asp Lys Ser Leu Asp Lys Phe Xaa Ile 1 5 10 15 <210> 10 <211> 16 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (5)..(5) <223> Pyrrolysine <220> <221> MOD_RES <222> (16)..(16) <223> Ile or Leu <400> 10 Gln Cys Glu Ile Xaa Trp Ala Arg Glu Phe Leu Lys Glu Ile Gly Xaa 1 5 10 15 <210> 11 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (4)..(4) <223> Selenocysteine <400> 11 Phe Ile Glu Xaa His Phe Trp Ile 1 5 <210> 12 <211> 12 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (7)..(7) <223> Ile or Leu <220> <221> MOD_RES <222> (10)..(10) <223> Selenocysteine <220> <221> MOD_RES <222> (11)..(11) <223> Ile or Leu <400> 12 Phe Glu Trp Arg His Arg Xaa Thr Arg Xaa Xaa Arg 1 5 10 <210> 13 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (4)..(4) <223> Ile or Leu <220> <221> MOD_RES <222> (5)..(5) <223> Pyrrolysine <220> <221> MOD_RES <222> (8)..(8) <223> Ile or Leu <400> 13 Gln Ile Glu Xaa Xaa Glu Ile Xaa Glu 1 5 <210> 14 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (5)..(5) <223> Pyrrolysine <400> 14 Gln Cys Glu Ile Xaa Trp Ala Arg Glu 1 5 <210> 15 <211> 14 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (2)..(2) <223> Ile or Leu <220> <221> MOD_RES <222> (9)..(9) <223> Pyrrolysine <220> <221> MOD_RES <222> (11)..(11) <223> Ile or Leu <400> 15 Phe Xaa Glu Leu Phe Ile Ser Asx Xaa Ser Xaa Phe Ile Glu 1 5 10 <210> 16 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (5)..(5) <223> Pyrrolysine <220> <221> MOD_RES <222> (9)..(9) <223> Ile or Leu <400> 16 Ile Glu Phe Arg Xaa Glu Ile Phe Xaa Glu Phe 1 5 10 <210> 17 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (5)..(5) <223> Pyrrolysine <220> <221> MOD_RES <222> (9)..(9) <223> Ile or Leu <400> 17 Ile Glu Phe Arg Xaa Glu Ile Phe Xaa 1 5 <210> 18 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (4)..(4) <223> Pyrrolysine <220> <221> MOD_RES <222> (8)..(8) <223> Ile or Leu <400> 18 Glu Phe Arg Xaa Glu Ile Phe Xaa Glu 1 5 <210> 19 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (3)..(3) <223> Pyrrolysine <220> <221> MOD_RES <222> (7)..(7) <223> Ile or Leu <400> 19 Phe Arg Xaa Glu Ile Phe Xaa Glu Phe 1 5 <210> 20 <211> 9 <212> PRT <213> Homo sapiens <400> 20 Tyr Glu His Glu Asp Val Lys Glu Ala 1 5 <210> 21 <211> 9 <212> PRT <213> Homo sapiens <400> 21 Ser Ser Ala Ala Ala Pro Phe Pro Leu 1 5 <210> 22 <211> 10 <212> PRT <213> Homo sapiens <400> 22 Phe Val Ser Thr Ser Asp Ile Lys Ser Met 1 5 10 <210> 23 <211> 9 <212> PRT <213> Homo sapiens <400> 23 Asp Glu Asn Ile Thr Thr Ile Gln Phe 1 5 <210> 24 <211> 9 <212> PRT <213> Homo sapiens <400> 24 Gln Asp Val Ser Val Gln Val Glu Arg 1 5 <210> 25 <211> 10 <212> PRT <213> Homo sapiens <400> 25 Glu Val Ala Asp Ala Ala Thr Leu Thr Met 1 5 10 <210> 26 <211> 10 <212> PRT <213> Homo sapiens <400> 26 Asp Thr Val Glu Tyr Pro Tyr Thr Ser Phe 1 5 10 <210> 27 <211> 10 <212> PRT <213> Homo sapiens <400> 27 Gly Thr Lys Lys Asp Val Asp Val Leu Lys 1 5 10 <210> 28 <211> 9 <212> PRT <213> Homo sapiens <400> 28 His Ser Pro Phe Thr Ala Thr Ser Leu 1 5 <210> 29 <211> 9 <212> PRT <213> Homo sapiens <400> 29 Asp Pro Glu Glu Val Leu Val Thr Val 1 5 <210> 30 <211> 10 <212> PRT <213> Homo sapiens <400> 30 Glu Leu Asp Pro Asp Ile Gln Leu Glu Tyr 1 5 10 <210> 31 <211> 9 <212> PRT <213> Homo sapiens <400> 31 Thr Pro Leu Thr Lys Asp Val Thr Leu 1 5 <210> 32 <211> 8 <212> PRT <213> Homo sapiens <400> 32 Asp Gly Val Gly Lys Ser Ala Leu 1 5 <210> 33 <211> 9 <212> PRT <213> Homo sapiens <400> 33 Tyr Thr Thr Val Arg Ala Leu Thr Leu 1 5 <210> 34 <211> 9 <212> PRT <213> Homo sapiens <400> 34 Thr Pro Ser Ala Ala Val Lys Leu Ile 1 5 <210> 35 <211> 8 <212> PRT <213> Homo sapiens <400> 35 Trp Pro Val Leu Leu Leu Asn Val 1 5 <210> 36 <211> 9 <212> PRT <213> Homo sapiens <400> 36 Glu Leu Asn Ala Arg Arg Cys Ser Phe 1 5 <210> 37 <211> 9 <212> PRT <213> Homo sapiens <400> 37 Gln Met Lys Asn Pro Ile Leu Glu Leu 1 5 <210> 38 <211> 9 <212> PRT <213> Homo sapiens <400> 38 Leu Thr Glu Lys Val Ser Leu Leu Lys 1 5 <210> 39 <211> 8 <212> PRT <213> Homo sapiens <400> 39 Ser Pro Phe Thr Ala Thr Ser Leu 1 5 <210> 40 <211> 9 <212> PRT <213> Homo sapiens <400> 40 Asn Val Asp Met Arg Thr Ile Ser Phe 1 5 <210> 41 <211> 9 <212> PRT <213> Homo sapiens <400> 41 Thr Ser Ile Val Val Ser Gln Thr Leu 1 5 <210> 42 <211> 9 <212> PRT <213> Homo sapiens <400> 42 His Ile Lys Ile Glu Pro Val Ala Ile 1 5 <210> 43 <211> 9 <212> PRT <213> Homo sapiens <400> 43 Asp Ser Pro Asp Gly Ser Asn Gly Leu 1 5 <210> 44 <211> 10 <212> PRT <213> Homo sapiens <400> 44 Tyr Thr Ala Val His Tyr Ala Ala Ser Tyr 1 5 10 <210> 45 <211> 11 <212> PRT <213> Homo sapiens <400> 45 Val Gly Ala Asp Gly Val Gly Lys Ser Ala Leu 1 5 10 <210> 46 <211> 8 <212> PRT <213> Homo sapiens <400> 46 Met Met Pro Pro Leu Pro Gly Ile 1 5 <210> 47 <211> 9 <212> PRT <213> Homo sapiens <400> 47 Phe Pro Tyr Pro Gly Met Thr Asn Gln 1 5 <210> 48 <211> 9 <212> PRT <213> Homo sapiens <400> 48 Val Thr Asn His Ala Pro Leu Ser Trp 1 5 <210> 49 <211> 10 <212> PRT <213> Homo sapiens <400> 49 Gly Leu Asn Val Pro Val Gln Ser Asn Lys 1 5 10 <210> 50 <211> 10 <212> PRT <213> Homo sapiens <400> 50 Val Val Val Gly Ala Cys Gly Val Gly Lys 1 5 10 <210> 51 <211> 10 <212> PRT <213> Homo sapiens <400> 51 Ala Gln Phe Ala Gly Lys Asp Gln Thr Tyr 1 5 10 <210> 52 <211> 11 <212> PRT <213> Homo sapiens <400> 52 Lys Val Val Leu Pro Ser Asp Val Thr Ser Tyr 1 5 10 <210> 53 <211> 9 <212> PRT <213> Homo sapiens <400> 53 Met Leu Met Lys Asn Ile Ser Thr Lys 1 5 <210> 54 <211> 9 <212> PRT <213> Homo sapiens <400> 54 Asp Leu Ala Gly Gly Thr Phe Asp Val 1 5 <210> 55 <211> 10 <212> PRT <213> Homo sapiens <400> 55 Leu Ile Phe Asp Leu Ala Gly Gly Thr Phe 1 5 10 <210> 56 <211> 8 <212> PRT <213> Homo sapiens <400> 56 Asn Val Leu Ile Phe Asp Leu Ala 1 5 <210> 57 <211> 9 <212> PRT <213> Homo sapiens <400> 57 Val Val Gly Ala Cys Gly Val Gly Lys 1 5 <210> 58 <211> 9 <212> PRT <213> Homo sapiens <400> 58 Val Ile Met Leu Asn Gly Thr Lys Lys 1 5 <210> 59 <211> 8 <212> PRT <213> Homo sapiens <400> 59 Leu Ala Gly Gly Thr Phe Asp Val 1 5 <210> 60 <211> 9 <212> PRT <213> Homo sapiens <400> 60 Leu Arg Asn Ser Gly Gly Glu Val Phe 1 5 <210> 61 <211> 10 <212> PRT <213> Homo sapiens <400> 61 Val Val Leu Pro Ser Asp Val Thr Ser Tyr 1 5 10 <210> 62 <211> 9 <212> PRT <213> Homo sapiens <400> 62 Ile Phe Asp Leu Ala Gly Gly Thr Phe 1 5 <210> 63 <211> 11 <212> PRT <213> Homo sapiens <400> 63 Gly Leu Leu Asp Glu Ala Lys Arg Leu Leu Tyr 1 5 10 <210> 64 <211> 11 <212> PRT <213> Homo sapiens <400> 64 Ser Val Leu Leu Pro Glu Asn Tyr Ile Thr Lys 1 5 10 <210> 65 <211> 10 <212> PRT <213> Homo sapiens <400> 65 Asp Leu Ala Gly Gly Thr Phe Asp Val Ser 1 5 10 <210> 66 <211> 11 <212> PRT <213> Homo sapiens <400> 66 Ile Phe Asp Leu Ala Gly Gly Thr Phe Asp Val 1 5 10 <210> 67 <211> 11 <212> PRT <213> Homo sapiens <400> 67 Ala Glu Trp Arg Asn Gly Ser Thr Ser Ser Leu 1 5 10 <210> 68 <211> 11 <212> PRT <213> Homo sapiens <400> 68 Tyr Val Ser Glu Lys Asp Val Ile Ser Ala Lys 1 5 10 <210> 69 <211> 10 <212> PRT <213> Homo sapiens <400> 69 Glu Gly Ser Leu Gly Ile Ser His Thr Arg 1 5 10 <210> 70 <211> 9 <212> PRT <213> Homo sapiens <400> 70 Ile Pro Ala Ser Val Ser Ala Pro Lys 1 5 <210> 71 <211> 11 <212> PRT <213> Homo sapiens <400> 71 Leu Val Val Val Gly Ala Ser Gly Val Gly Lys 1 5 10 <210> 72 <211> 8 <212> PRT <213> Homo sapiens <400> 72 Arg Ala Thr Ile Val Pro Glu Leu 1 5 <210> 73 <211> 11 <212> PRT <213> Homo sapiens <400> 73 Gly Val Ser Lys Ile Ile Gly Gly Asn Pro Lys 1 5 10 <210> 74 <211> 11 <212> PRT <213> Homo sapiens <400> 74 Glu Gln Asn Phe Val Ser Thr Ser Asp Ile Lys 1 5 10 <210> 75 <211> 11 <212> PRT <213> Homo sapiens <400> 75 Arg Thr Gln Asp Val Ser Val Gln Val Glu Arg 1 5 10 <210> 76 <211> 10 <212> PRT <213> Homo sapiens <400> 76 Glu Ala Gly Asn Asn Ser Arg Val Pro Arg 1 5 10 <210> 77 <211> 9 <212> PRT <213> Homo sapiens <400> 77 Arg Tyr Val Leu His Val Val Ala Ala 1 5 <210> 78 <211> 10 <212> PRT <213> Homo sapiens <400> 78 Val Ser Lys Ile Ile Gly Gly Asn Pro Lys 1 5 10 <210> 79 <211> 9 <212> PRT <213> Homo sapiens <400> 79 Gln Pro Ser Gly Val Pro Thr Ser Leu 1 5 <210> 80 <211> 8 <212> PRT <213> Homo sapiens <400> 80 Asp Val Ser Val Gln Val Glu Arg 1 5 <210> 81 <211> 9 <212> PRT <213> Homo sapiens <400> 81 Phe Pro Val Val Asn Ser His Ser Leu 1 5 <210> 82 <211> 10 <212> PRT <213> Homo sapiens <400> 82 Ala Pro Phe Pro Leu Gly Asp Ser Ala Leu 1 5 10 <210> 83 <211> 10 <212> PRT <213> Homo sapiens <400> 83 Ala Thr Ile Val Pro Glu Leu Asn Glu Ile 1 5 10 <210> 84 <211> 9 <212> PRT <213> Homo sapiens <400> 84 Gln Glu Phe Ala Pro Leu Gly Thr Val 1 5 <210> 85 <211> 8 <212> PRT <213> Homo sapiens <400> 85 Met Asn Gln Val Leu His Ala Tyr 1 5 <210> 86 <211> 8 <212> PRT <213> Homo sapiens <400> 86 His Glu Asp Val Lys Glu Ala Ile 1 5 <210> 87 <211> 9 <212> PRT <213> Homo sapiens <400> 87 Gly Pro Tyr Pro Phe Val Gln Ala Val 1 5 <210> 88 <211> 10 <212> PRT <213> Homo sapiens <400> 88 Tyr Glu His Glu Asp Val Lys Glu Ala Ile 1 5 10 <210> 89 <211> 9 <212> PRT <213> Homo sapiens <400> 89 Glu Glu Ser Val Met Leu Leu Thr Val 1 5 <210> 90 <211> 9 <212> PRT <213> Homo sapiens <400> 90 Ile Glu Glu Asp Ser Ala Glu Lys Ile 1 5 <210> 91 <211> 9 <212> PRT <213> Homo sapiens <400> 91 Thr Glu Glu Asp Val Lys Ile Lys Phe 1 5 <210> 92 <211> 9 <212> PRT <213> Homo sapiens <400> 92 Asn Glu Gln Ser Lys Leu Leu Lys Val 1 5 <210> 93 <211> 9 <212> PRT <213> Homo sapiens <400> 93 Val Asp Asn Ile Ile Ile Gln Ser Ile 1 5 <210> 94 <211> 9 <212> PRT <213> Homo sapiens <400> 94 Tyr Val Ser Glu Val Pro Val Ser Val 1 5 <210> 95 <211> 9 <212> PRT <213> Homo sapiens <400> 95 Ser Glu Leu Thr Val His Gln Arg Ile 1 5 <210> 96 <211> 8 <212> PRT <213> Homo sapiens <400> 96 Val Gly Val Gly Lys Ser Ala Leu 1 5 <210> 97 <211> 9 <212> PRT <213> Homo sapiens <400> 97 Asp Met Asn Gln Val Leu His Ala Tyr 1 5 <210> 98 <211> 9 <212> PRT <213> Homo sapiens <400> 98 Asn Glu Lys Gly Lys Ala Leu Ile Tyr 1 5 <210> 99 <211> 11 <212> PRT <213> Homo sapiens <400> 99 Thr Glu Tyr Lys Leu Val Val Val Gly Ala Val 1 5 10 <210> 100 <211> 10 <212> PRT <213> Homo sapiens <400> 100 Gln Glu Phe Ala Pro Leu Gly Thr Val Gly 1 5 10 <210> 101 <211> 10 <212> PRT <213> Homo sapiens <400> 101 Gln Glu Val Arg Asn Thr Leu Leu Asn Val 1 5 10 <210> 102 <211> 9 <212> PRT <213> Homo sapiens <400> 102 Val Glu Met Leu Gly Leu Ile Ser Cys 1 5 <210> 103 <211> 9 <212> PRT <213> Homo sapiens <400> 103 Leu Phe His Asp Met Asn Val Ser Tyr 1 5 <210> 104 <211> 9 <212> PRT <213> Homo sapiens <400> 104 Ile Ser Thr Phe Arg Gln Cys Ala Leu 1 5 <210> 105 <211> 9 <212> PRT <213> Homo sapiens <400> 105 Tyr Asn Thr Asp Asp Ile Glu Phe Tyr 1 5 <210> 106 <211> 9 <212> PRT <213> Homo sapiens <400> 106 Glu Glu Thr Pro Pro Phe Ser Asn Tyr 1 5 <210> 107 <211> 9 <212> PRT <213> Homo sapiens <400> 107 Gln Ala Ser Gly Asn His His Val Trp 1 5 <210> 108 <211> 9 <212> PRT <213> Homo sapiens <400> 108 Glu Glu Val Thr Pro Ile Leu Ala Ile 1 5 <210> 109 <211> 10 <212> PRT <213> Homo sapiens <400> 109 Ile Glu His Asn Ile Arg Asn Ala Lys Tyr 1 5 10 <210> 110 <211> 9 <212> PRT <213> Homo sapiens <400> 110 Ala Glu Arg Leu Asp Val Lys Ala Ile 1 5 <210> 111 <211> 11 <212> PRT <213> Homo sapiens <400> 111 Leu Phe Gln Gln Gly Lys Asp Leu Gln Gln Tyr 1 5 10 <210> 112 <211> 9 <212> PRT <213> Homo sapiens <400> 112 Asp Thr Ser Pro Val Ala Val Ala Leu 1 5 <210> 113 <211> 10 <212> PRT <213> Homo sapiens <400> 113 Ala Glu Glu Thr Pro Pro Phe Ser Asn Tyr 1 5 10 <210> 114 <211> 9 <212> PRT <213> Homo sapiens <400> 114 Ala Ala Lys Ala Ala Leu Glu Asp Phe 1 5 <210> 115 <211> 9 <212> PRT <213> Homo sapiens <400> 115 Glu Val Thr Pro Ile Leu Ala Ile Arg 1 5 <210> 116 <211> 9 <212> PRT <213> Homo sapiens <400> 116 Asp Val Lys Ala Ile Gly Pro Leu Val 1 5 <210> 117 <211> 10 <212> PRT <213> Homo sapiens <400> 117 Asn Glu Thr Pro Val Ala Val Leu Thr Ile 1 5 10 <210> 118 <211> 9 <212> PRT <213> Homo sapiens <400> 118 Leu Phe Val Val Phe Gln Thr Val Tyr 1 5 <210> 119 <211> 11 <212> PRT <213> Homo sapiens <400> 119 Ala Glu Ala Glu Arg Leu Asp Val Lys Ala Ile 1 5 10 <210> 120 <211> 8 <212> PRT <213> Homo sapiens <400> 120 Ala Ser Gly Asn His His Val Trp 1 5 <210> 121 <211> 10 <212> PRT <213> Homo sapiens <400> 121 Lys Leu Phe His Asp Met Asn Val Ser Tyr 1 5 10 <210> 122 <211> 11 <212> PRT <213> Homo sapiens <400> 122 Glu Thr Pro Pro Phe Ser Asn Tyr Asn Thr Leu 1 5 10 <210> 123 <211> 8 <212> PRT <213> Homo sapiens <400> 123 Met Glu Leu Lys Val Glu Ser Phe 1 5 <210> 124 <211> 9 <212> PRT <213> Homo sapiens <400> 124 Glu His Ile Pro Glu Ser Ala Gly Phe 1 5 <210> 125 <211> 9 <212> PRT <213> Homo sapiens <400> 125 Tyr His Gly Asp Pro Met Pro Cys Leu 1 5 <210> 126 <211> 8 <212> PRT <213> Homo sapiens <400> 126 Asp Glu Glu Arg Ile Pro Val Leu 1 5 <210> 127 <211> 8 <212> PRT <213> Homo sapiens <400> 127 Ile Glu Val Glu Val Asn Glu Ile 1 5 <210> 128 <211> 8 <212> PRT <213> Homo sapiens <400> 128 Val Glu Ile Glu Gln Leu Thr Tyr 1 5 <210> 129 <211> 9 <212> PRT <213> Homo sapiens <400> 129 Leu Glu Leu Lys Ala Val His Ala Tyr 1 5 <210> 130 <211> 9 <212> PRT <213> Homo sapiens <400> 130 Glu Glu Ala Asp Phe Leu Leu Ala Tyr 1 5 <210> 131 <211> 9 <212> PRT <213> Homo sapiens <400> 131 Glu Asn Ile Thr Thr Ile Gln Phe Tyr 1 5 <210> 132 <211> 9 <212> PRT <213> Homo sapiens <400> 132 Phe His Ala Thr Asn Pro Leu Asn Leu 1 5 <210> 133 <211> 9 <212> PRT <213> Homo sapiens <400> 133 Val Phe Lys Asp Leu Ser Val Thr Leu 1 5 <210> 134 <211> 9 <212> PRT <213> Homo sapiens <400> 134 Gln Ala Val Ala Ala Val Gln Lys Leu 1 5 <210> 135 <211> 9 <212> PRT <213> Homo sapiens <400> 135 Ile Gln Asp Gln Ile Gln Asn Cys Ile 1 5 <210> 136 <211> 9 <212> PRT <213> Homo sapiens <400> 136 Val Ala Lys Gly Phe Ile Ser Arg Met 1 5 <210> 137 <211> 9 <212> PRT <213> Homo sapiens <400> 137 Gln Thr Lys Pro Ala Ser Leu Leu Tyr 1 5 <210> 138 <211> 9 <212> PRT <213> Homo sapiens <400> 138 Asp His Phe Glu Thr Ile Ile Lys Tyr 1 5 <210> 139 <211> 8 <212> PRT <213> Homo sapiens <400> 139 Val Glu Tyr Pro Tyr Thr Ser Phe 1 5 <210> 140 <211> 10 <212> PRT <213> Homo sapiens <400> 140 Ser Val Ser Asp Ile Ser Glu Tyr Arg Val 1 5 10 <210> 141 <211> 11 <212> PRT <213> Homo sapiens <400> 141 Tyr Thr Phe Glu Ile Gln Gly Val Asn Gly Val 1 5 10 <210> 142 <211> 11 <212> PRT <213> Homo sapiens <400> 142 Ile Tyr Thr Ser Ser Gly Gln Leu Gln Leu Phe 1 5 10 <210> 143 <211> 10 <212> PRT <213> Homo sapiens <400> 143 Phe Ala Thr Pro Ser Leu His Thr Ser Val 1 5 10 <210> 144 <211> 11 <212> PRT <213> Homo sapiens <400> 144 Ala Val Ser Lys Pro Gly Leu Asp Tyr Glu Leu 1 5 10 <210> 145 <211> 9 <212> PRT <213> Homo sapiens <400> 145 Lys Tyr Ile Asn Lys Thr Ile Arg Val 1 5 <210> 146 <211> 10 <212> PRT <213> Homo sapiens <400> 146 Glu Thr Thr Glu Glu Met Lys Tyr Val Leu 1 5 10 <210> 147 <211> 10 <212> PRT <213> Homo sapiens <400> 147 Val Val Ser His Pro His Leu Val Tyr Trp 1 5 10 <210> 148 <211> 9 <212> PRT <213> Homo sapiens <400> 148 Asp Ile Phe Gln Val Val Lys Ala Ile 1 5 <210> 149 <211> 11 <212> PRT <213> Homo sapiens <400> 149 Phe Ala Phe Asp Ala Val Ser Lys Pro Gly Leu 1 5 10 <210> 150 <211> 9 <212> PRT <213> Homo sapiens <400> 150 Ser Val Ser Asp Ile Ser Glu Tyr Arg 1 5 <210> 151 <211> 8 <212> PRT <213> Homo sapiens <400> 151 Tyr Thr Phe Glu Ile Gln Gly Val 1 5 <210> 152 <211> 9 <212> PRT <213> Homo sapiens <400> 152 Ala Thr Pro Ser Leu His Thr Ser Val 1 5 <210> 153 <211> 11 <212> PRT <213> Homo sapiens <400> 153 Asp Phe Ala Thr Pro Ser Leu His Thr Ser Val 1 5 10 <210> 154 <211> 11 <212> PRT <213> Homo sapiens <400> 154 Lys Tyr Ile Asn Lys Thr Ile Arg Val Lys Phe 1 5 10 <210> 155 <211> 9 <212> PRT <213> Homo sapiens <400> 155 Ser Val Lys Pro His Leu Cys Ser Leu 1 5 <210> 156 <211> 10 <212> PRT <213> Homo sapiens <400> 156 Asp Ile Ser Glu Tyr Arg Val Glu His Leu 1 5 10 <210> 157 <211> 9 <212> PRT <213> Homo sapiens <400> 157 Trp Val Val Ser His Pro His Leu Val 1 5 <210> 158 <211> 9 <212> PRT <213> Homo sapiens <400> 158 Lys Val Phe Lys Leu Gly Asn Lys Val 1 5 <210> 159 <211> 10 <212> PRT <213> Homo sapiens <400> 159 Val Ser Lys Pro Gly Leu Asp Tyr Glu Leu 1 5 10 <210> 160 <211> 9 <212> PRT <213> Homo sapiens <400> 160 Ser Pro Ser Lys Thr Ser Leu Thr Leu 1 5 <210> 161 <211> 10 <212> PRT <213> Homo sapiens <400> 161 Ala Ser Ala Asp Gly Thr Val Lys Leu Trp 1 5 10 <210> 162 <211> 10 <212> PRT <213> Homo sapiens <400> 162 Leu Val Gly Pro Ala Gln Leu Ser His Trp 1 5 10 <210> 163 <211> 10 <212> PRT <213> Homo sapiens <400> 163 Gln Thr Ala Ala Ala Val Gly Val Leu Lys 1 5 10 <210> 164 <211> 11 <212> PRT <213> Homo sapiens <400> 164 Phe Pro Ser Pro Ser Lys Thr Ser Leu Thr Leu 1 5 10 <210> 165 <211> 10 <212> PRT <213> Homo sapiens <400> 165 Ser Ser Thr Ser Asn Arg Ser Ser Thr Trp 1 5 10 <210> 166 <211> 10 <212> PRT <213> Homo sapiens <400> 166 Leu Val Tyr Gly Pro Leu Gly Ala Gly Lys 1 5 10 <210> 167 <211> 9 <212> PRT <213> Homo sapiens <400> 167 His Ser Tyr Ser Glu Leu Cys Thr Trp 1 5 <210> 168 <211> 9 <212> PRT <213> Homo sapiens <400> 168 Val Thr Leu Asp Val Ile Leu Glu Arg 1 5 <210> 169 <211> 10 <212> PRT <213> Homo sapiens <400> 169 His Ser Lys Pro Glu Asp Thr Asp Ala Trp 1 5 10 <210> 170 <211> 9 <212> PRT <213> Homo sapiens <400> 170 Ile Ala Ala Ser Arg Ser Val Val Met 1 5 <210> 171 <211> 9 <212> PRT <213> Homo sapiens <400> 171 Ala Ala Ile Ala Ala Ser Arg Ser Val 1 5 <210> 172 <211> 8 <212> PRT <213> Homo sapiens <400> 172 Ala Ala Ser Arg Ser Val Val Met 1 5 <210> 173 <211> 9 <212> PRT <213> Homo sapiens <400> 173 Glu Met Asp Met His Leu Ser Asp Tyr 1 5 <210> 174 <211> 8 <212> PRT <213> Homo sapiens <400> 174 Val Glu Asn Gln Lys His Ser Leu 1 5 <210> 175 <211> 10 <212> PRT <213> Homo sapiens <400> 175 Gln Tyr Met Asp Ser Ser Leu Val Lys Ile 1 5 10 <210> 176 <211> 9 <212> PRT <213> Homo sapiens <400> 176 Ser Ala Ser Leu His Pro Ala Thr Val 1 5 <210> 177 <211> 9 <212> PRT <213> Homo sapiens <400> 177 Val Pro Asp Gln Lys Ser Lys Gln Leu 1 5 <210> 178 <211> 9 <212> PRT <213> Homo sapiens <400> 178 Ile Val Phe Ile Ala Thr Ser Glu Phe 1 5 <210> 179 <211> 9 <212> PRT <213> Homo sapiens <400> 179 Tyr Pro Ala Pro Gln Pro Pro Val Leu 1 5 <210> 180 <211> 9 <212> PRT <213> Homo sapiens <400> 180 Ala Pro Lys Lys Lys Ser Ile Lys Leu 1 5 <210> 181 <211> 9 <212> PRT <213> Homo sapiens <400> 181 Leu Leu Leu Glu Val Val Trp His Leu 1 5 <210> 182 <211> 9 <212> PRT <213> Homo sapiens <400> 182 Phe Thr Asp Glu Lys Val Lys Ala Tyr 1 5 <210> 183 <211> 10 <212> PRT <213> Homo sapiens <400> 183 Arg Thr Ala Lys Gln Asn Pro Leu Thr Lys 1 5 10 <210> 184 <211> 9 <212> PRT <213> Homo sapiens <400> 184 Phe Leu Ala Pro Thr Gly Val Pro Val 1 5 <210> 185 <211> 11 <212> PRT <213> Homo sapiens <400> 185 Arg Leu Ala Asp Ala Glu Lys Leu Phe Gln Leu 1 5 10 <210> 186 <211> 11 <212> PRT <213> Homo sapiens <400> 186 Arg Thr Ala Lys Gln Asn Pro Leu Thr Lys Lys 1 5 10 <210> 187 <211> 10 <212> PRT <213> Homo sapiens <400> 187 Ile Met Tyr Leu Thr Gly Met Val Asn Lys 1 5 10 <210> 188 <211> 9 <212> PRT <213> Homo sapiens <400> 188 Thr Leu Gln Glu Leu Ser His Ala Leu 1 5 <210> 189 <211> 9 <212> PRT <213> Homo sapiens <400> 189 Val Ser Gln Pro Val Ala Pro Ser Tyr 1 5 <210> 190 <211> 10 <212> PRT <213> Homo sapiens <400> 190 Arg Leu Phe Thr Pro Ile Ser Ala Gly Tyr 1 5 10 <210> 191 <211> 10 <212> PRT <213> Homo sapiens <400> 191 Ile Thr Glu Glu Pro Ile Leu Met Thr Tyr 1 5 10 <210> 192 <211> 9 <212> PRT <213> Homo sapiens <400> 192 Lys Val Thr Gly His Arg Trp Leu Lys 1 5 <210> 193 <211> 9 <212> PRT <213> Homo sapiens <400> 193 Lys Leu Ser Glu Gln Ile Leu Lys Lys 1 5 <210> 194 <211> 9 <212> PRT <213> Homo sapiens <400> 194 Gly Thr Lys Pro Asn Pro His Val Tyr 1 5 <210> 195 <211> 9 <212> PRT <213> Homo sapiens <400> 195 Gln Gln Gln Gln Val Val Thr Asn Lys 1 5 <210> 196 <211> 10 <212> PRT <213> Homo sapiens <400> 196 Lys Val Leu Gly Lys Gly Ser Phe Ala Lys 1 5 10 <210> 197 <211> 9 <212> PRT <213> Homo sapiens <400> 197 Ser Val Gln Ala Pro Val Pro Pro Lys 1 5 <210> 198 <211> 8 <212> PRT <213> Epstein-Barr virus <400> 198 Arg Ala Lys Phe Lys Gln Leu Leu 1 5 <210> 199 <211> 9 <212> PRT <213> Influenza virus <400> 199 Cys Thr Glu Leu Lys Leu Ser Asp Tyr 1 5 <210> 200 <211> 9 <212> PRT <213> Influenza virus <400> 200 Glu Leu Arg Ser Arg Tyr Trp Ala Ile 1 5 <210> 201 <211> 9 <212> PRT <213> Human cytomegalovirus <400> 201 Asn Leu Val Pro Met Val Ala Thr Val 1 5 <210> 202 <211> 9 <212> PRT <213> Influenza virus <400> 202 Gly Ile Leu Gly Phe Val Phe Thr Leu 1 5 <210> 203 <211> 10 <212> PRT <213> Hepatitis C virus <400> 203 Lys Leu Val Ala Leu Gly Ile Asn Ala Val 1 5 10 <210> 204 <211> 9 <212> PRT <213> Human immunodeficiency virus <400> 204 Ile Leu Lys Glu Pro Val His Gly Val 1 5 <210> 205 <211> 9 <212> PRT <213> Respiratory syncytial virus <400> 205 Asn Pro Lys Ala Ser Leu Leu Ser Leu 1 5 <210> 206 <211> 13 <212> PRT <213> Homo sapiens <400> 206 Cys Ala Val Thr Val Thr Gly Arg Arg Ala Leu Thr Phe 1 5 10 <210> 207 <211> 9 <212> PRT <213> Homo sapiens <400> 207 Cys Ala Leu Asn Ala Arg Leu Met Phe 1 5 <210> 208 <211> 13 <212> PRT <213> Homo sapiens <400> 208 Cys Ala Val Val Leu Asp Ser Asn Tyr Gln Leu Ile Trp 1 5 10 <210> 209 <211> 15 <212> PRT <213> Homo sapiens <400> 209 Cys Ala Thr Ala Ser Arg Gln Gly Gly Ser Glu Lys Leu Val Phe 1 5 10 15 <210> 210 <211> 11 <212> PRT <213> Homo sapiens <400> 210 Cys Ala Ala Ser Ser Asn Tyr Gln Leu Ile Trp 1 5 10 <210> 211 <211> 17 <212> PRT <213> Homo sapiens <400> 211 Cys Ala Ser Asn Pro Pro Asp Ala Ala Arg Gly Gln Glu Thr Gln Tyr 1 5 10 15 Phe <210> 212 <211> 14 <212> PRT <213> Homo sapiens <400> 212 Cys Ala Ser Ser Tyr Arg Glu Tyr Asn Thr Glu Ala Phe Phe 1 5 10 <210> 213 <211> 15 <212> PRT <213> Homo sapiens <400> 213 Cys Ser Ala Thr Arg Gly His Leu Ser Asn Gln Pro Gln His Phe 1 5 10 15 <210> 214 <211> 14 <212> PRT <213> Homo sapiens <400> 214 Cys Ala Ser Ser Arg Gly Gly Gly Thr Asp Thr Gln Tyr Phe 1 5 10 <210> 215 <211> 13 <212> PRT <213> Homo sapiens <400> 215 Cys Ala Ser Ser Leu Gly Leu Ala Tyr Glu Gln Tyr Phe 1 5 10 <210> 216 <211> 131 <212> PRT <213> Homo sapiens <400> 216 Met Leu Leu Leu Leu Val Pro Val Leu Glu Val Ile Phe Thr Leu Gly 1 5 10 15 Gly Thr Arg Ala Gln Ser Val Thr Gln Leu Gly Ser His Val Ser Val 20 25 30 Ser Glu Gly Ala Leu Val Leu Leu Arg Cys Asn Tyr Ser Ser Ser Val 35 40 45 Pro Pro Tyr Leu Phe Trp Tyr Val Gln Tyr Pro Asn Gln Gly Leu Gln 50 55 60 Leu Leu Leu Lys Tyr Thr Thr Gly Ala Thr Leu Val Lys Gly Ile Asn 65 70 75 80 Gly Phe Glu Ala Glu Phe Lys Lys Ser Glu Thr Ser Phe His Leu Thr 85 90 95 Lys Pro Ser Ala His Met Ser Asp Ala Ala Glu Tyr Phe Cys Ala Val 100 105 110 Thr Val Thr Gly Arg Arg Ala Leu Thr Phe Gly Ser Gly Thr Arg Leu 115 120 125 Gln Val Gln 130 <210> 217 <211> 146 <212> PRT <213> Homo sapiens <400> 217 Met Ala Phe Trp Leu Arg Arg Leu Gly Leu His Phe Arg Pro His Leu 1 5 10 15 Gly Arg Arg Met Glu Ser Phe Leu Gly Gly Val Leu Leu Ile Leu Trp 20 25 30 Leu Gln Val Asp Trp Val Lys Ser Gln Lys Ile Glu Gln Asn Ser Glu 35 40 45 Ala Leu Asn Ile Gln Glu Gly Lys Thr Ala Thr Leu Thr Cys Asn Tyr 50 55 60 Thr Asn Tyr Ser Pro Ala Tyr Leu Gln Trp Tyr Arg Gln Asp Pro Gly 65 70 75 80 Arg Gly Pro Val Phe Leu Leu Leu Ile Arg Glu Asn Glu Lys Glu Lys 85 90 95 Arg Lys Glu Arg Leu Lys Val Thr Phe Asp Thr Thr Leu Lys Gln Ser 100 105 110 Leu Phe His Ile Thr Ala Ser Gln Pro Ala Asp Ser Ala Thr Tyr Leu 115 120 125 Cys Ala Leu Asn Ala Arg Leu Met Phe Gly Asp Gly Thr Gln Leu Val 130 135 140 Val Lys 145 <210> 218 <211> 128 <212> PRT <213> Homo sapiens <400> 218 Met Lys Arg Ile Leu Gly Ala Leu Leu Gly Leu Leu Ser Ala Gln Val 1 5 10 15 Cys Cys Val Arg Gly Ile Gln Val Glu Gln Ser Pro Pro Asp Leu Ile 20 25 30 Leu Gln Glu Gly Ala Asn Ser Thr Leu Arg Cys Asn Phe Ser Asp Ser 35 40 45 Val Asn Asn Leu Gln Trp Phe His Gln Asn Pro Trp Gly Gln Leu Ile 50 55 60 Asn Leu Phe Tyr Ile Pro Ser Gly Thr Lys Gln Asn Gly Arg Leu Ser 65 70 75 80 Ala Thr Thr Val Ala Thr Glu Arg Tyr Ser Leu Leu Tyr Ile Ser Ser 85 90 95 Ser Gln Thr Thr Asp Ser Gly Val Tyr Phe Cys Ala Val Val Leu Asp 100 105 110 Ser Asn Tyr Gln Leu Ile Trp Gly Ala Gly Thr Lys Leu Ile Ile Lys 115 120 125 <210> 219 <211> 132 <212> PRT <213> Homo sapiens <400> 219 Met Glu Thr Leu Leu Gly Val Ser Leu Val Ile Leu Trp Leu Gln Leu 1 5 10 15 Ala Arg Val Asn Ser Gln Gln Gly Glu Glu Asp Pro Gln Ala Leu Ser 20 25 30 Ile Gln Glu Gly Glu Asn Ala Thr Met Asn Cys Ser Tyr Lys Thr Ser 35 40 45 Ile Asn Asn Leu Gln Trp Tyr Arg Gln Asn Ser Gly Arg Gly Leu Val 50 55 60 His Leu Ile Leu Ile Arg Ser Asn Glu Arg Glu Lys His Ser Gly Arg 65 70 75 80 Leu Arg Val Thr Leu Asp Thr Ser Lys Lys Ser Ser Ser Leu Leu Ile 85 90 95 Thr Ala Ser Arg Ala Ala Asp Thr Ala Ser Tyr Phe Cys Ala Thr Ala 100 105 110 Ser Arg Gln Gly Gly Ser Glu Lys Leu Val Phe Gly Lys Gly Thr Lys 115 120 125 Leu Thr Val Asn 130 <210> 220 <211> 128 <212> PRT <213> Homo sapiens <400> 220 Met Thr Ser Ile Arg Ala Val Phe Ile Phe Leu Trp Leu Gln Leu Asp 1 5 10 15 Leu Val Asn Gly Glu Asn Val Glu Gln His Pro Ser Thr Leu Ser Val 20 25 30 Gln Glu Gly Asp Ser Ala Val Ile Lys Cys Thr Tyr Ser Asp Ser Ala 35 40 45 Ser Asn Tyr Phe Pro Trp Tyr Lys Gln Glu Leu Gly Lys Gly Pro Gln 50 55 60 Leu Ile Ile Asp Ile Arg Ser Asn Val Gly Glu Lys Lys Asp Gln Arg 65 70 75 80 Ile Ala Val Thr Leu Asn Lys Thr Ala Lys His Phe Ser Leu His Ile 85 90 95 Thr Glu Thr Gln Pro Glu Asp Ser Ala Val Tyr Phe Cys Ala Ala Ser 100 105 110 Ser Asn Tyr Gln Leu Ile Trp Gly Ala Gly Thr Lys Leu Ile Ile Lys 115 120 125 <210> 221 <211> 136 <212> PRT <213> Homo sapiens <400> 221 Met Asp Thr Trp Leu Val Cys Trp Ala Ile Phe Ser Leu Leu Lys Ala 1 5 10 15 Gly Leu Thr Glu Pro Glu Val Thr Gln Thr Pro Ser His Gln Val Thr 20 25 30 Gln Met Gly Gln Glu Val Ile Leu Arg Cys Val Pro Ile Ser Asn His 35 40 45 Leu Tyr Phe Tyr Trp Tyr Arg Gln Ile Leu Gly Gln Lys Val Glu Phe 50 55 60 Leu Val Ser Phe Tyr Asn Asn Glu Ile Ser Glu Lys Ser Glu Ile Phe 65 70 75 80 Asp Asp Gln Phe Ser Val Glu Arg Pro Asp Gly Ser Asn Phe Thr Leu 85 90 95 Lys Ile Arg Ser Thr Lys Leu Glu Asp Ser Ala Met Tyr Phe Cys Ala 100 105 110 Ser Asn Pro Pro Asp Ala Ala Arg Gly Gln Glu Thr Gln Tyr Phe Gly 115 120 125 Pro Gly Thr Arg Leu Leu Val Leu 130 135 <210> 222 <211> 132 <212> PRT <213> Homo sapiens <400> 222 Met Ser Ile Gly Leu Leu Cys Cys Val Ala Phe Ser Leu Leu Trp Ala 1 5 10 15 Ser Pro Val Asn Ala Gly Val Thr Gln Thr Pro Lys Phe Gln Val Leu 20 25 30 Lys Thr Gly Gln Ser Met Thr Leu Gln Cys Ala Gln Asp Met Asn His 35 40 45 Asn Ser Met Tyr Trp Tyr Arg Gln Asp Pro Gly Met Gly Leu Arg Leu 50 55 60 Ile Tyr Tyr Ser Ala Ser Glu Gly Thr Thr Asp Lys Gly Glu Val Pro 65 70 75 80 Asn Gly Tyr Asn Val Ser Arg Leu Asn Lys Arg Glu Phe Ser Leu Arg 85 90 95 Leu Glu Ser Ala Ala Pro Ser Gln Thr Ser Val Tyr Phe Cys Ala Ser 100 105 110 Ser Tyr Arg Glu Tyr Asn Thr Glu Ala Phe Phe Gly Gln Gly Thr Arg 115 120 125 Leu Thr Val Val 130 <210> 223 <211> 131 <212> PRT <213> Homo sapiens <400> 223 Met Leu Leu Leu Leu Leu Leu Leu Gly Pro Gly Ser Gly Leu Gly Ala 1 5 10 15 Val Val Ser Gln His Pro Ser Arg Val Ile Cys Lys Ser Gly Thr Ser 20 25 30 Val Lys Ile Glu Cys Arg Ser Leu Asp Phe Gln Ala Thr Thr Met Phe 35 40 45 Trp Tyr Arg Gln Phe Pro Lys Gln Ser Leu Met Leu Met Ala Thr Ser 50 55 60 Asn Glu Gly Ser Lys Ala Thr Tyr Glu Gln Gly Val Glu Lys Asp Lys 65 70 75 80 Phe Leu Ile Asn His Ala Ser Leu Thr Leu Ser Thr Leu Thr Val Thr 85 90 95 Ser Ala His Pro Glu Asp Ser Ser Phe Tyr Ile Cys Ser Ala Thr Arg 100 105 110 Gly His Leu Ser Asn Gln Pro Gln His Phe Gly Asp Gly Thr Arg Leu 115 120 125 Ser Ile Leu 130 <210> 224 <211> 133 <212> PRT <213> Homo sapiens <400> 224 Met Gly Thr Ser Leu Leu Cys Trp Val Val Leu Gly Phe Leu Gly Thr 1 5 10 15 Asp His Thr Gly Ala Gly Val Ser Gln Ser Pro Arg Tyr Lys Val Thr 20 25 30 Lys Arg Gly Gln Asp Val Ala Leu Arg Cys Asp Pro Ile Ser Gly His 35 40 45 Val Ser Leu Tyr Trp Tyr Arg Gln Ala Leu Gly Gln Gly Pro Glu Phe 50 55 60 Leu Thr Tyr Phe Asn Tyr Glu Ala Gln Gln Asp Lys Ser Gly Leu Pro 65 70 75 80 Asn Asp Arg Phe Ser Ala Glu Arg Pro Glu Gly Ser Ile Ser Thr Leu 85 90 95 Thr Ile Gln Arg Thr Glu Gln Arg Asp Ser Ala Met Tyr Arg Cys Ala 100 105 110 Ser Ser Arg Gly Gly Gly Thr Asp Thr Gln Tyr Phe Gly Pro Gly Thr 115 120 125 Arg Leu Thr Val Leu 130 <210> 225 <211> 131 <212> PRT <213> Homo sapiens <400> 225 Met Gly Ile Arg Leu Leu Cys Arg Val Ala Phe Cys Phe Leu Ala Val 1 5 10 15 Gly Leu Val Asp Val Lys Val Thr Gln Ser Ser Arg Tyr Leu Val Lys 20 25 30 Arg Thr Gly Glu Lys Val Phe Leu Glu Cys Val Gln Asp Met Asp His 35 40 45 Glu Asn Met Phe Trp Tyr Arg Gln Asp Pro Gly Leu Gly Leu Arg Leu 50 55 60 Ile Tyr Phe Ser Tyr Asp Val Lys Met Lys Glu Lys Gly Asp Ile Pro 65 70 75 80 Glu Gly Tyr Ser Val Ser Arg Glu Lys Lys Glu Arg Phe Ser Leu Ile 85 90 95 Leu Glu Ser Ala Ser Thr Asn Gln Thr Ser Met Tyr Leu Cys Ala Ser 100 105 110 Ser Leu Gly Leu Ala Tyr Glu Gln Tyr Phe Gly Pro Gly Thr Arg Leu 115 120 125 Thr Val Thr 130 <210> 226 <211> 18 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 226 Tyr Glu Met Phe Asn Asp Lys Ser Phe Gln Arg Ala Pro Asp Asp Lys 1 5 10 15 Met Phe <210> 227 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (6)..(6) <223> Selenocysteine <220> <221> MOD_RES <222> (7)..(8) <223> Pyrrolysine <400> 227 Phe Glu Gly Arg Lys Xaa Xaa Xaa Ile 1 5 <210> 228 <211> 14 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (2)..(2) <223> Ile or Leu <220> <221> MOD_RES <222> (5)..(5) <223> Pyrrolysine <220> <221> MOD_RES <222> (7)..(7) <223> Ile or Leu <220> <221> MOD_RES <222> (8)..(8) <223> Pyrrolysine <220> <221> MOD_RES <222> (10)..(10) <223> Ile or Leu <220> <221> MOD_RES <222> (14)..(14) <223> Pyrrolysine <400> 228 Pro Xaa Phe Ile Xaa Glu Xaa Xaa Ile Xaa Gly Glu Ile Xaa 1 5 10 <210> 229 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 229 actgccatca ggtcggtata gtagc 25 <210> 230 <211> 2941 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <221> modified_base <222> (623)..(802) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (1463)..(1687) <223> a, c, t, g, unknown or other <400> 230 ggatctgcga tcgctccggt gcccgtcagt gggcagagcg cacatcgccc acagtccccg 60 agaagttggg gggaggggtc ggcaattgaa cgggtgccta gagaaggtgg cgcggggtaa 120 actgggaaag tgatgtcgtg tactggctcc gcctttttcc cgagggtggg ggagaaccgt 180 atataagtgc agtagtcgcc gtgaacgttc tttttcgcaa cgggtttgcc gccagaacac 240 agctgaagct tcgaggggct cgcatctctc cttcacgcgc ccgccgccct acctgaggcc 300 gccatccacg ccggttgagt cgcgttctgc cgcctcccgc ctgtggtgcc tcctgaactg 360 cgtccgccgt ctaggtaagt ttaaagctca ggtcgagacc gggcctttgt ccggcgctcc 420 cttggagcct acctagactc agccggctct ccacgctttg cctgaccctg cttgctcaac 480 tctacgtctt tgtttcgttt tctgttctgc gccgttacag atccaagctg tgaccggcgc 540 ctactctaga gccgccacca tggccctgcc tgtgacagcc ctgctgctgc ctctggctct 600 gctgctgcat gccgctagac ccnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 660 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 720 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 780 nnnnnnnnnn nnnnnnnnnn nngaggacct gaacaaggtg ttcccacccg aggtcgctgt 840 gtttgagcca tcagaagcag agatctccca cacccaaaag gccacactgg tgtgcctggc 900 cacaggcttc ttccccgacc acgtggagct gagctggtgg gtgaatggga aggaggtgca 960 cagtggggtc tgcacggacc cgcagcccct caaggagcag cccgccctca atgactccag 1020 atactgcctg agcagccgcc tgagggtctc ggccaccttc tggcagaacc cccgcaacca 1080 cttccgctgt caagtccagt tctacgggct ctcggagaat gacgagtgga cccaggatag 1140 ggccaaaccc gtcacccaga tcgtcagcgc cgaggcctgg ggtagagcag actgtggctt 1200 tacctcggtg tcctaccagc aaggggtcct gtctgccacc atcctctatg agatcctgct 1260 agggaaggcc accctgtatg ctgtgctggt cagcgccctt gtgttgatgg ccatggtcaa 1320 gagaaaggat ttcggctccg gagccacgaa cttctctctg ttaaagcaag caggagacgt 1380 ggaagaaaac cccggtccca tggcattgcc tgtcacggca ctccttctcc cgctggccct 1440 gcttctccac gcggcgcgac ccnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 1500 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 1560 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 1620 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 1680 nnnnnnncca aatatccaga accctgaccc tgccgtgtac cagctgagag actctaaatc 1740 cagtgacaag tctgtctgcc tattcaccga ttttgattct caaacaaatg tgtcacaaag 1800 taaggattct gatgtgtata tcacagacaa atgcgtgcta gacatgaggt ctatggactt 1860 caagagcaac agtgctgtgg cctggagcaa caaatctgac tttgcatgtg caaacgcctt 1920 caacaacagc attattccag aagacacctt cttccccagc ccagaaagtt cctgtgatgt 1980 caagctggtc gagaaaagct ttgaaacaga tacgaaccta aactttcaaa acctgtcagt 2040 gattgggttc cgaatcctcc tcctgaaagt ggccgggttt aatctgctca tgacgctgcg 2100 gctgtggtcc agcgcggccg ctgagggcag aggaagtctt ctaacatgcg gtgacgtgga 2160 ggagaatccc ggcccttccg gaatggagag cgacgagagc ggcctgcccg ccatggagat 2220 cgagtgccgc atcaccggca ccctgaacgg cgtggagttc gagctggtgg gcggcggaga 2280 gggcaccccc aagcagggcc gcatgaccaa caagatgaag agcaccaaag gcgccctgac 2340 cttcagcccc tacctgctga gccacgtgat gggctacggc ttctaccact tcggcaccta 2400 ccccagcggc tacgagaacc ccttcctgca cgccatcaac aacggcggct acaccaacac 2460 ccgcatcgag aagtacgagg acggcggcgt gctgcacgtg agcttcagct accgctacga 2520 ggccggccgc gtgatcggcg acttcaaggt ggtgggcacc ggcttccccg aggacagcgt 2580 gatcttcacc gacaagatca tccgcagcaa cgccaccgtg gagcacctgc accccatggg 2640 cgataacgtg ctggtgggca gcttcgcccg caccttcagc ctgcgcgacg gcggctacta 2700 cagcttcgtg gtggacagcc acatgcactt caagagcgcc atccacccca gcatcctgca 2760 gaacgggggc cccatgttcg ccttccgccg cgtggaggag ctgcacagca acaccgagct 2820 gggcatcgtg gagtaccagc acgccttcaa gacccccatc gccttcgcca gatcccgcgc 2880 tcagtcgtcc aattctgccg tggacggcac cgccggaccc ggctccaccg gatctcgcta 2940 g 2941 <210> 231 <211> 3220 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 231 ggatctgcga tcgctccggt gcccgtcagt gggcagagcg cacatcgccc acagtccccg 60 agaagttggg gggaggggtc ggcaattgaa cgggtgccta gagaaggtgg cgcggggtaa 120 actgggaaag tgatgtcgtg tactggctcc gcctttttcc cgagggtggg ggagaaccgt 180 atataagtgc agtagtcgcc gtgaacgttc tttttcgcaa cgggtttgcc gccagaacac 240 agctgaagct tcgaggggct cgcatctctc cttcacgcgc ccgccgccct acctgaggcc 300 gccatccacg ccggttgagt cgcgttctgc cgcctcccgc ctgtggtgcc tcctgaactg 360 cgtccgccgt ctaggtaagt ttaaagctca ggtcgagacc gggcctttgt ccggcgctcc 420 cttggagcct acctagactc agccggctct ccacgctttg cctgaccctg cttgctcaac 480 tctacgtctt tgtttcgttt tctgttctgc gccgttacag atccaagctg tgaccggcgc 540 ctactctaga gccgccacca tggccctgcc tgtgacagcc ctgctgctgc ctctggctct 600 gctgctgcat gccgctagac ccgaacctga agtcacccag actcccagcc atcaggtcac 660 acagatggga caggaagtga tcttgcgctg tgtccccatc tctaatcact tatacttcta 720 ttggtacaga caaatcttgg ggcagaaagt cgagtttctg gtttcctttt ataataatga 780 aatctcagag aagtctgaaa tattcgatga tcaattctca gttgaaaggc ctgatggatc 840 aaatttcact ctgaagatcc ggtccacaaa gctggaggac tcagccatgt acttctgtgc 900 cagcaacccc ccggacgctg cgaggggaca agagacccag tacttcgggc caggcacgcg 960 gctcctggtg ctcgaggacc tgaacaaggt gttcccaccc gaggtcgctg tgtttgagcc 1020 atcagaagca gagatctccc acacccaaaa ggccacactg gtgtgcctgg ccacaggctt 1080 cttccccgac cacgtggagc tgagctggtg ggtgaatggg aaggaggtgc acagtggggt 1140 ctgcacggac ccgcagcccc tcaaggagca gcccgccctc aatgactcca gatactgcct 1200 gagcagccgc ctgagggtct cggccacctt ctggcagaac ccccgcaacc acttccgctg 1260 tcaagtccag ttctacgggc tctcggagaa tgacgagtgg acccaggata gggccaaacc 1320 cgtcacccag atcgtcagcg ccgaggcctg gggtagagca gactgtggct ttacctcggt 1380 gtcctaccag caaggggtcc tgtctgccac catcctctat gagatcctgc tagggaaggc 1440 caccctgtat gctgtgctgg tcagcgccct tgtgttgatg gccatggtca agagaaagga 1500 tttcggctcc ggagccacga acttctctct gttaaagcaa gcaggagacg tggaagaaaa 1560 ccccggtccc atggcattgc ctgtcacggc actccttctc ccgctggccc tgcttctcca 1620 cgcggcgcga ccccagtcgg tgacccagct tggcagccac gtctctgtct ctgagggagc 1680 cctggttctg ctgaggtgca actactcatc gtctgttcca ccatatctct tctggtatgt 1740 gcaatacccc aaccaaggac tccagcttct cctgaagtac acaacagggg ccaccctggt 1800 taaaggcatc aacggttttg aggctgaatt taagaagagt gaaacctcct tccacctgac 1860 gaaaccctca gcccatatga gcgacgcggc tgagtacttc tgtgctgtga ccgtcacggg 1920 caggagagca cttacttttg ggagtggaac aagactccaa gtgcaaccaa atatccagaa 1980 ccctgaccct gccgtgtacc agctgagaga ctctaaatcc agtgacaagt ctgtctgcct 2040 attcaccgat tttgattctc aaacaaatgt gtcacaaagt aaggattctg atgtgtatat 2100 cacagacaaa tgcgtgctag acatgaggtc tatggacttc aagagcaaca gtgctgtggc 2160 ctggagcaac aaatctgact ttgcatgtgc aaacgccttc aacaacagca ttattccaga 2220 agacaccttc ttccccagcc cagaaagttc ctgtgatgtc aagctggtcg agaaaagctt 2280 tgaaacagat acgaacctaa actttcaaaa cctgtcagtg attgggttcc gaatcctcct 2340 cctgaaagtg gccgggttta atctgctcat gacgctgcgg ctgtggtcca gcgcggccgc 2400 tgagggcaga ggaagtcttc taacatgcgg tgacgtggag gagaatcccg gcccttccgg 2460 aatggagagc gacgagagcg gcctgcccgc catggagatc gagtgccgca tcaccggcac 2520 cctgaacggc gtggagttcg agctggtggg cggcggagag ggcaccccca agcagggccg 2580 catgaccaac aagatgaaga gcaccaaagg cgccctgacc ttcagcccct acctgctgag 2640 ccacgtgatg ggctacggct tctaccactt cggcacctac cccagcggct acgagaaccc 2700 cttcctgcac gccatcaaca acggcggcta caccaacacc cgcatcgaga agtacgagga 2760 cggcggcgtg ctgcacgtga gcttcagcta ccgctacgag gccggccgcg tgatcggcga 2820 cttcaaggtg gtgggcaccg gcttccccga ggacagcgtg atcttcaccg acaagatcat 2880 ccgcagcaac gccaccgtgg agcacctgca ccccatgggc gataacgtgc tggtgggcag 2940 cttcgcccgc accttcagcc tgcgcgacgg cggctactac agcttcgtgg tggacagcca 3000 catgcacttc aagagcgcca tccaccccag catcctgcag aacgggggcc ccatgttcgc 3060 cttccgccgc gtggaggagc tgcacagcaa caccgagctg ggcatcgtgg agtaccagca 3120 cgccttcaag acccccatcg ccttcgccag atcccgcgct cagtcgtcca attctgccgt 3180 ggacggcacc gccggacccg gctccaccgg atctcgctag 3220 <210> 232 <211> 3187 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 232 ggatctgcga tcgctccggt gcccgtcagt gggcagagcg cacatcgccc acagtccccg 60 agaagttggg gggaggggtc ggcaattgaa cgggtgccta gagaaggtgg cgcggggtaa 120 actgggaaag tgatgtcgtg tactggctcc gcctttttcc cgagggtggg ggagaaccgt 180 atataagtgc agtagtcgcc gtgaacgttc tttttcgcaa cgggtttgcc gccagaacac 240 agctgaagct tcgaggggct cgcatctctc cttcacgcgc ccgccgccct acctgaggcc 300 gccatccacg ccggttgagt cgcgttctgc cgcctcccgc ctgtggtgcc tcctgaactg 360 cgtccgccgt ctaggtaagt ttaaagctca ggtcgagacc gggcctttgt ccggcgctcc 420 cttggagcct acctagactc agccggctct ccacgctttg cctgaccctg cttgctcaac 480 tctacgtctt tgtttcgttt tctgttctgc gccgttacag atccaagctg tgaccggcgc 540 ctactctaga gccgccacca tggccctgcc tgtgacagcc ctgctgctgc ctctggctct 600 gctgctgcat gccgctagac ccggtgtcac tcagacccca aaattccagg tcctgaagac 660 aggacagagc atgacactgc agtgtgccca ggatatgaac cataactcca tgtactggta 720 tcgacaagac ccaggcatgg gactgaggct gatttattac tcagcttctg agggtaccac 780 tgacaaagga gaagtcccca atggctacaa tgtctccaga ttaaacaaac gggagttctc 840 gctcaggctg gagtcggctg ctccctccca gacatctgtg tacttctgtg ccagcagtta 900 ccgggagtac aacactgaag ctttctttgg acaaggcacc agactcacag ttgtagagga 960 cctgaacaag gtgttcccac ccgaggtcgc tgtgtttgag ccatcagaag cagagatctc 1020 ccacacccaa aaggccacac tggtgtgcct ggccacaggc ttcttccccg accacgtgga 1080 gctgagctgg tgggtgaatg ggaaggaggt gcacagtggg gtctgcacgg acccgcagcc 1140 cctcaaggag cagcccgccc tcaatgactc cagatactgc ctgagcagcc gcctgagggt 1200 ctcggccacc ttctggcaga acccccgcaa ccacttccgc tgtcaagtcc agttctacgg 1260 gctctcggag aatgacgagt ggacccagga tagggccaaa cccgtcaccc agatcgtcag 1320 cgccgaggcc tggggtagag cagactgtgg ctttacctcg gtgtcctacc agcaaggggt 1380 cctgtctgcc accatcctct atgagatcct gctagggaag gccaccctgt atgctgtgct 1440 ggtcagcgcc cttgtgttga tggccatggt caagagaaag gatttcggct ccggagccac 1500 gaacttctct ctgttaaagc aagcaggaga cgtggaagaa aaccccggtc ccatggcatt 1560 gcctgtcacg gcactccttc tcccgctggc cctgcttctc cacgcggcgc gaccccaaaa 1620 gatagaacag aattccgagg ccctgaacat tcaggagggt aaaacggcca ccctgacctg 1680 caactataca aactattctc cagcatactt acagtggtac cgacaagatc caggaagagg 1740 ccctgttttc ttgctactca tacgtgaaaa tgagaaagaa aaaaggaaag aaagactgaa 1800 ggtcaccttt gataccaccc ttaaacagag tttgtttcat atcacagcct cccagcctgc 1860 agactcagct acctacctct gtgctctaaa tgccagactc atgtttggag atggaactca 1920 gctggtggtg aagccaaata tccagaaccc tgaccctgcc gtgtaccagc tgagagactc 1980 taaatccagt gacaagtctg tctgcctatt caccgatttt gattctcaaa caaatgtgtc 2040 acaaagtaag gattctgatg tgtatatcac agacaaatgc gtgctagaca tgaggtctat 2100 ggacttcaag agcaacagtg ctgtggcctg gagcaacaaa tctgactttg catgtgcaaa 2160 cgccttcaac aacagcatta ttccagaaga caccttcttc cccagcccag aaagttcctg 2220 tgatgtcaag ctggtcgaga aaagctttga aacagatacg aacctaaact ttcaaaacct 2280 gtcagtgatt gggttccgaa tcctcctcct gaaagtggcc gggtttaatc tgctcatgac 2340 gctgcggctg tggtccagcg cggccgctga gggcagagga agtcttctaa catgcggtga 2400 cgtggaggag aatcccggcc cttccggaat ggagagcgac gagagcggcc tgcccgccat 2460 ggagatcgag tgccgcatca ccggcaccct gaacggcgtg gagttcgagc tggtgggcgg 2520 cggagagggc acccccaagc agggccgcat gaccaacaag atgaagagca ccaaaggcgc 2580 cctgaccttc agcccctacc tgctgagcca cgtgatgggc tacggcttct accacttcgg 2640 cacctacccc agcggctacg agaacccctt cctgcacgcc atcaacaacg gcggctacac 2700 caacacccgc atcgagaagt acgaggacgg cggcgtgctg cacgtgagct tcagctaccg 2760 ctacgaggcc ggccgcgtga tcggcgactt caaggtggtg ggcaccggct tccccgagga 2820 cagcgtgatc ttcaccgaca agatcatccg cagcaacgcc accgtggagc acctgcaccc 2880 catgggcgat aacgtgctgg tgggcagctt cgcccgcacc ttcagcctgc gcgacggcgg 2940 ctactacagc ttcgtggtgg acagccacat gcacttcaag agcgccatcc accccagcat 3000 cctgcagaac gggggcccca tgttcgcctt ccgccgcgtg gaggagctgc acagcaacac 3060 cgagctgggc atcgtggagt accagcacgc cttcaagacc cccatcgcct tcgccagatc 3120 ccgcgctcag tcgtccaatt ctgccgtgga cggcaccgcc ggacccggct ccaccggatc 3180 tcgctag 3187

Claims

종양 세포의 표면 상에 제시될 수 있는 대상체의 하나 이상의 종양 세포로부터의 하나 이상의 신생항원을 동정하는 방법으로서,
상기 대상체의 종양 세포 및 정상 세포로부터 엑솜(exome), 전사체(transcriptome) 또는 전체 게놈 뉴클레오타이드 서열분석 데이터 중 적어도 하나를 수득하는 단계로서, 상기 뉴클레오타이드 서열분석 데이터는 상기 종양 세포로부터의 상기 뉴클레오타이드 서열분석 데이터와 상기 정상 세포로부터의 상기 뉴클레오타이드 서열분석 데이터를 비교하는 것에 의해 동정된 신생항원 세트의 각각의 펩타이드 서열을 나타내는 데이터를 얻기 위해 사용되며, 각 신생항원의 상기 펩타이드 서열은 상기 대상체의 정상 세포로부터 동정된 상응하는 야생형 펩타이드 서열과 구별되게 하는 적어도 하나의 변경을 포함하는, 상기 수득하는 단계;
상기 각 신생항원의 펩타이드 서열을 상응하는 수치 벡터로 인코딩하는 단계로서, 각 수치 벡터는 펩타이드 서열을 구성하는 복수의 아미노산 및 상기 펩타이드 서열의 아미노산의 위치 세트에 관한 정보를 포함하는, 상기 인코딩하는 단계;
상기 각 신생항원의 펩타이드 서열을 상기 대상체의 뉴클레오티드 서열분석 데이터의 복수의 k-mer 블록 중 하나 이상의 k-mer 블록과 회합하는 단계;
컴퓨터 프로세서를 사용하여, 상기 수치 벡터 및 하나 이상의 회합된 k-mer 블록을 기계-학습된 제시 모델에 입력하여 상기 신생항원 세트에 대한 제시 가능성 세트를 생성하는 단계로서, 상기 세트에서의 각 제시 가능성은, 상응하는 신생항원이 상기 대상체의 종양 세포 표면 상의 하나 이상의 MHC 대립유전자에 의해 제시되는 가능성을 나타내며, 상기 기계-학습된 제시 모델은,
적어도 훈련 데이타 세트를 기초하여 동정된 복수의 파라미터로서,
복수의 샘플에서 각각의 샘플에 대해, 샘플에 존재하는 것으로 동정된, MHC 대립유전자의 세트에서 적어도 하나의 MHC 대립유전자에 결합된 펩타이드의 존재를 측정하는 질량 분광분석법에 의해 얻어진 표지;
상기 샘플의 각각에 대해, 펩타이드를 구성하는 복수의 아미노산 및 상기 펩타이드의 아미노산의 위치 세트에 관한 정보를 포함하는 수치 벡터로 인코딩된 훈련 펩타이드 서열; 및
상기 샘플의 각각에 대해, 상기 샘플의 각각의 훈련 펩타이드 서열에 대해, 훈련 펩타이드 서열과 훈련 펩타이드 서열의 뉴클레오티드 서열분석 데이터의 복수의 k-mer 블록의 하나 이상의 k-mer 블록 사이의 회합성;
를 포함하되, 상기 복수의 파라미터의 서브셋은 하나 이상의 k-mer 블록에 대한 제시 핫스팟의 존재 또는 부재를 나타내는, 상기 복수의 파라미터; 및
입력으로서 수신된 상기 수치 벡터 및 하나 이상의 k-mer 블록과, 상기 수치 벡터, 상기 하나 이상의 k-mer 블록, 및 상기 파라미터에 기초하여 입력으로서 생성된 상기 제시 가능성 사이의 관계를 나타내는 함수를 포함하는, 상기 생성하는 단계;
선택된 신생항원의 세트를 생성하기 위해 상기 제시 가능성 세트를 기초하여 상기 신생항원 세트의 서브셋을 선택하는 단계; 및
선택된 신생항원의 세트를 반환하는 단계
를 포함하는, 방법.
청구항 1에 있어서, 상기 수치 벡터를 상기 기계-학습된 제시 모델에 입력하는 단계는,
상기 신생항원의 상기 펩타이드 서열에 상기 기계-학습된 제시 모델을 적용하여 상기 MHC 대립유전자가 상기 펩타이드 서열의 특정 위치에서 특정 아미노산에 기초한 상기 신생항원을 제시할 것인지의 여부를 나타내는 상기 하나 이상의 MHC 대립유전자의 각각에 대해 의존성 스코어를 생성하는 단계를 포함하는, 방법.
청구항 2에 있어서, 상기 수치 벡터를 상기 기계-학습된 제시 모델에 입력하는 단계는,
상기 의존성 스코어를 변환하여 상응하는 MHC 대립유전자가 상기 상응하는 신생항원을 제시할 것인지의 가능성을 나타내는 각 MHC 대립유전자에 대한 상기 상응하는 과-대립유전자 가능성을 생성하는 단계를 추가로 포함하는, 방법.
청구항 3에 있어서, 상기 의존성 스코어를 변환하는 단계가 상기 하나 이상의 MHC 대립유전자에 걸쳐 상호 배타적인 것으로 신생항원의 제시를 모델링하는, 방법.
청구항 2에 있어서, 상기 수치 벡터를 상기 기계-학습된 제시 모델에 입력하는 단계는,
상기 의존성 스코어의 조합을 변환하여 상기 제시 가능성을 생성하는 단계로서, 상기 의존성 스코어의 조합을 변환하는 것은 상기 하나 이상의 MHC 대립유전자 사이의 간섭으로서 상기 신생항원의 제시를 모델링하는 단계를 추가로 포함하는, 방법.
청구항 2 내지 5 중 어느 한 항에 있어서, 상기 제시 가능성 세트는 적어도 하나 이상의 대립유전자 비상호작용 특징에 의해 추가로 동정되고,
상기 대립유전자 비상호작용 특징을 상기 기계-학습된 제시 모델에 적용하여 상기 상응하는 신생항원의 상기 펩타이드 서열이 상기 대립유전자 비상호작용 특징에 기초하여 제시될 것인지의 여부를 나타내는 상기 대립유전자 비상호작용 특징에 대해 의존성 스코어를 생성하는 단계를 추가로 포함하는, 방법.
청구항 6에 있어서,
하나 이상의 MHC 대립유전자의 각 MHC 대립유전자에 대한 상기 의존성 스코어와 상기 대립유전자 비상호작용 특징에 대한 상기 의존성 스코어를 조합하는 단계;
각 MHC 대립유전자에 대한 상기 조합된 의존성 스코어를 변환하여 상기 대응하는 MHC 대립유전자가 상기 상응하는 신생항원을 제시할 것인지의 여부를 나타내는 각 MHC 대립유전자에 대한 과-대립유전자 가능성을 생성하는 단계;
상기 과-대립유전자 가능성을 조합하여 상기 제시 가능성을 생성하는 단계를 추가로 포함하는, 방법.
청구항 6에 있어서,
상기 각각의 MHC 대립유전자에 대한 의존성 스코어 및 상기 대립유전자 비상호작용 특징에 대한 의존성 스코어를 조합하는 단계; 및
상기 조합된 의존성 스코어를 변환하여 제시 가능성을 생성하는 단계를 추가로 포함하는, 방법.
청구항 6 내지 8 중 어느 한 항에 있어서, 상기 하나 이상의 대립유전자 비상호작용 특징은 신생항원의 펩타이드 서열과, 상기 신생항원의 뉴클레오티드 서열분석 데이터의 복수의 k-mer 블록의 하나 이상의 k-mer 블록 사이의 회합성을 포함하는, 방법.
청구항 1 내지 9 중 어느 한 항에 있어서, 상기 하나 이상의 MHC 대립유전자는 둘 이상의 상이한 MHC 대립유전자를 포함하는, 방법.
청구항 1 내지 10 중 어느 한 항에 있어서, 상기 펩타이드 서열이 9개의 아미노산 이외의 길이를 갖는 펩타이드 서열을 포함하는, 방법.
청구항 1 내지 11 중 어느 한 항에 있어서, 상기 펩타이드 서열을 인코딩하는 단계는 원-핫 인코딩 방식을 사용하여 펩타이드 서열을 인코딩하는 단계를 포함하는, 방법.
청구항 1 내지 12 중 어느 한 항에 있어서, 상기 복수의 샘플은,
(a) 단일 MHC 대립유전자를 발현하기 위해 조작된 하나 이상의 세포주;
(b) 복수의 MHC 대립유전자를 발현하기 위해 조작된 하나 이상의 세포주;
(c) 복수의 환자로부터 수득되거나 유래된 하나 이상의 인간 세포주;
(d) 복수의 환자로부터 수득된 신선하거나 냉동된 종양 샘플; 및
(e) 복수의 환자로부터 수득된 신선하거나 냉동된 조직 샘플
중 적어도 하나를 포함하는, 방법.
청구항 1 내지 13 중 어느 한 항에 있어서, 상기 훈련 데이터 세트는,
(a) 상기 펩타이드 중 적어도 하나에 대해 펩타이드-MHC 결합 친화도 측정과 관련된 데이터; 및
(b) 상기 펩타이드 중 적어도 하나에 대해 펩타이드-MHC 결합 안정성 측정과 관련된 데이터
중 적어도 하나를 추가로 포함하는, 방법.
청구항 1 내지 14 중 어느 한 항에 있어서, 상기 제시 가능성 세트는 RNA-seq 또는 질량 분석법에 의해 측정된 바와 같이, 상기 대상체에서 하나 이상의 MHC 대립유전자의 적어도 발현 수준에 의해 추가로 동정되는, 방법.
청구항 1 내지 15 중 어느 한 항에 있어서, 상기 제시 가능성 세트는 하기 중 적어도 하나를 포함하는 특징에 의해 추가로 동정되는, 방법:
(a) 상기 신생항원 세트의 신생항원 및 상기 하나 이상의 MHC 대립유전자 사이에 예측된 친화도; 및
(b) 신생항원 인코딩된 펩타이드-MHC 복합체의 예측된 안정성.
청구항 1 내지 16 중 어느 한 항에 있어서, 상기 수치 가능성 세트는 하기 중 적어도 하나를 포함하는 특징에 의해 추가로 동정되는, 방법:
(a) 원천 단백질 서열 내에서 신생항원 인코딩 펩타이드 서열에 측접하는 C-말단 서열; 및
(b) 원천 단백질 서열 내에서 신생항원 인코딩 펩타이드 서열에 측접하는 N-말단 서열.
청구항 1 내지 17 중 어느 한 항에 있어서,
상기 선택된 신생항원의 세트를 선택하는 단계는, 상기 기계-학습된 제시 모델에 기초하여 비선택된 신생항원에 비해 상기 종양 세포 표면 상에 제시될 가능성이 증가된 신생항원을 선택하는 단계를 포함하는, 방법.
청구항 1 내지 청구항 18 중 어느 한 항에 있어서,
상기 선택된 신생항원의 세트를 선택하는 단계는 상기 기계-학습된 제시 모델에 기초하여 비선택된 신생항원에 비해 상기 대상체에서 종양-특이적 면역 반응을 유도할 수 있는 가능성이 증가된 신생항원을 선택하는 단계를 포함하는, 방법.
청구항 1 내지 청구항 19 중 어느 한 항에 있어서,
상기 선택된 신생항원의 세트를 선택하는 단계는 제시 모델에 기초하여 비선택된 신생항원에 비해 훈련 항원 제시 세포(APC)에 의해 미접촉 T-세포에 제시될 수 있는 가능성이 증가한 신생항원을 선택하는 단계를 포함하며, 선택적으로 상기 APC는 수지상 세포(DC)인, 방법.
청구항 1 내지 20 중 어느 한 항에 있어서,
상기 선택된 신생항원의 세트를 선택하는 단계는, 상기 기계-학습된 제시 모델에 기초하여 비선택된 신생항원에 대하여 중추 또는 말초 내성을 통해 억제될 가능성이 감소된 신생항원을 선택하는 단계를 포함하는, 방법.
청구항 1 내지 21 중 어느 한 항에 있어서,
상기 선택된 신생항원 세트를 선택하는 단계는, 상기 기계-학습된 제시 모델에 기초하여 비선택된 신생항원에 대하여 상기 대상체에서 정상 조직에 대한 자가면역 반응을 유도할 수 있는 가능성이 감소된 신생항원을 선택하는 단계를 포함하는, 방법.
청구항 1 내지 22 중 어느 한 항에 있어서,
상기 하나 이상의 종양 세포는 폐암, 흑색종, 유방암, 난소암, 전립선암, 신장암, 위암, 결장암, 고환암, 두경부암, 췌장암, 뇌암, B-세포 림프종, 급성 골수성 백혈병, 만성 골수성 백혈병, 만성 림프구성 백혈병, 및 T-세포 림프구성 백혈병, 비-소세포 폐암, 및 소세포 폐암으로 이루어진 군으로부터 선택되는, 방법.
청구항 1 내지 23 중 어느 한 항에 있어서, 상기 선택된 신생항원 세트로부터 개인화된 암 백신을 구성하기 위한 결과물을 생성하는 단계를 추가로 포함하는, 방법.
청구항 24에 있어서, 상기 개인화된 암 백신에 대한 출력이 선택된 신생항원 세트를 인코딩하는 하나 이상의 펩타이드 서열 또는 하나 이상의 뉴클레오티드 서열을 포함하는, 방법.
청구항 1 내지 25 중 어느 한 항에 있어서, 상기 기계-학습된 제시 모델은 신경망 모델인, 방법.
청구항 26에 있어서, 상기 신경 네트워크 모델은 MHC 대립유전자에 대한 복수의 네트워크 모델을 포함하고, 각각의 네트워크 모델은 MHC 대립유전자의 대응하는 MHC 대립유전자에 할당되고 하나 이상의 층으로 배열된 일련의 노드를 포함하는, 방법.
청구항 27에 있어서, 상기 신경망 모델은 상기 신경망 모델의 파라미터를 업데이트함으로써 학습되고, 상기 적어도 2개의 네트워크 모델의 파라미터는 적어도 하나의 훈련 반복을 위해 공동으로 업데이트되는, 방법.
청구항 26 내지 28 중 어느 한 항에 있어서, 상기 기계-학습된 제시 모델은 하나 이상의 노드 층을 포함하는 딥 러닝 모델인, 방법.
청구항 1 내지 29 중 어느 한 항에 있어서, 상기 하나 이상의 MHC 대립유전자는 부류 I MHC 대립유전자인, 방법.
컴퓨터 시스템으로서,
컴퓨터 프로세서;
상기 컴퓨터 프로세서에 의해 실행될 때 컴퓨터 프로세서가 다음을 수행하도록하는 컴퓨터 프로그램 명령을 저장하는 메모리를 포함하는 컴퓨터 시스템:
대상체의 종양 세포 및 정상 세포로부터 엑솜, 전사체 또는 전체 게놈 뉴클레오타이드 서열분석 데이터 중 적어도 하나를 수득하는 단계로서, 상기 뉴클레오타이드 서열분석 데이터는 상기 종양 세포로부터의 상기 뉴클레오타이드 서열분석 데이터와 상기 정상 세포로부터의 상기 뉴클레오타이드 서열분석 데이터를 비교하는 것에 의해 동정된 신생항원 세트의 각각의 펩타이드 서열을 나타내는 데이터를 얻기 위해 사용되며, 각 신생항원의 상기 펩타이드 서열은 상기 대상체의 정상 세포로부터 동정된 상응하는 야생형 펩타이드 서열과 구별되게 하는 적어도 하나의 변경을 포함하는, 상기 수득하는 단계;
상기 각 신생항원의 펩타이드 서열을 상응하는 수치 벡터로 인코딩하는 단계로서, 각 수치 벡터는 펩타이드 서열을 구성하는 복수의 아미노산 및 상기 펩타이드 서열의 아미노산의 위치 세트에 관한 정보를 포함하는, 상기 인코딩하는 단계;
상기 각 신생항원의 펩타이드 서열을 상기 대상체의 뉴클레오티드 서열분석 데이터의 복수의 k-mer 블록 중 하나 이상의 k-mer 블록과 회합하는 단계;
상기 수치 벡터 및 하나 이상의 회합된 k-mer 블록을 기계-학습된 제시 모델에 입력하여 상기 신생항원 세트에 대한 제시 가능성 세트를 생성하는 단계로서, 상기 세트에서의 각 제시 가능성은, 상응하는 신생항원이 상기 대상체의 종양 세포 표면 상의 하나 이상의 MHC 대립유전자에 의해 제시되는 가능성을 나타내며, 상기 기계-학습된 제시 모델은,
적어도 훈련 데이타 세트를 기초하여 동정된 복수의 파라미터로서,
복수의 샘플에서 각각의 샘플에 대해, 샘플에 존재하는 것으로 동정된, MHC 대립유전자의 세트에서 적어도 하나의 MHC 대립유전자에 결합된 펩타이드의 존재를 측정하는 질량 분광분석법에 의해 얻어진 표지;
상기 샘플의 각각에 대해, 펩타이드를 구성하는 복수의 아미노산 및 상기 펩타이드의 아미노산의 위치 세트에 관한 정보를 포함하는 수치 벡터로 인코딩된 훈련 펩타이드 서열; 및
상기 샘플의 각각에 대해, 상기 샘플의 각각의 훈련 펩타이드 서열에 대해, 훈련 펩타이드 서열과 훈련 펩타이드 서열의 뉴클레오티드 서열분석 데이터의 복수의 k-mer 블록의 하나 이상의 k-mer 블록 사이의 회합성;
를 포함하되, 상기 복수의 파라미터의 서브셋은 하나 이상의 k-mer 블록에 대한 제시 핫스팟의 존재 또는 부재를 나타내는, 상기 복수의 파라미터; 및
입력으로서 수신된 상기 수치 벡터 및 하나 이상의 k-mer 블록과, 상기 수치 벡터, 상기 하나 이상의 k-mer 블록, 및 상기 파라미터에 기초하여 입력으로서 생성된 상기 제시 가능성 사이의 관계를 나타내는 함수를 포함하는, 상기 생성하는 단계;
선택된 신생항원의 세트를 생성하기 위해 상기 제시 가능성 세트를 기초하여 상기 신생항원 세트의 서브셋을 선택하는 단계; 및
선택된 신생항원의 세트를 반환하는 단계.