KR102159921B1

KR102159921B1 - 펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램

Info

Publication number: KR102159921B1
Application number: KR1020200035815A
Authority: KR
Inventors: 황태순; 홍성의; 송상훈
Original assignee: 주식회사 테라젠바이오
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-09-25
Also published as: US20240203522A1; EP4131275A1; JP2023518725A; CN115298739A; WO2021194057A1; EP4131275A4

Abstract

본 개시는 대상 암 조직으로부터 추출된 펩타이드 서열과 HLA 대립유전자 서열을 입력으로 수신하는 단계; 상기 펩타이드 서열로부터 T 세포 활성 데이터를 획득하고, 상기 T 세포 활성 데이터를 면역성 예측 모델에 입력하여, 상기 펩타이드 서열의 면역성을 예측하는 제1 예측값을 출력하는 단계; 상기 HLA 대립유전자 서열로부터 결합 데이터를 획득하고, 상기 결합 데이터를 결합성 예측 모델에 입력하여 상기 펩타이드 서열 및 상기 HLA 대립유전자 서열의 결합성을 예측하는 제2 예측값을 출력하는 단계; 면역 내성 예측 모델에 상기 T 세포 활성 데이터 및 상기 결합 데이터를 입력하여, 상기 대상 암 조직의 면역 내성을 예측하는 제3 예측값을 출력하는 단계; 및 상기 T 세포 활성 데이터 및 상기 제1 내지 제3 예측값을 이용하여 상기 대상 세포에 대한 신생항원 정보를 생성하는 단계를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법을 개시한다.

Description

펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램{METHOD FOR PREDICTING NEOANTIGEN USING A PEPTIDE SEQUENCE AND HLA ALLELE SEQUENCE AND COMPUTER PROGRAM}

본 개시는 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램에 관한 것이다.

항암 신약 물질 개발의 발전으로 인해 1세대 항암제인 화학항암제, 2세대 표적항암제를 거쳐 최근 3세대 면역항암제가 각광을 받고 있다. 특히 3세대 면역항암제의 경우, 앞선 항암제와 다르게 환자 자신의 면역 시스템을 활용한 치료 전략이므로 부작용이 현저하게 낮은 장점이 있다. 하지만 이러한 장점에도 불구하고 PD-L1과 같은 표지 유전자의 발현 및 현미부수체 불안정 (MSI-H)를 보이는 환자만이 면역항암제를 이용한 치료 전략이 수립 가능한 한계를 갖고 있다. 이러한 제약으로 인해 기존 항암제 투여가 어려운 환자를 치료하기 위한 전략 수립이 필요하며 대안 중 하나로 제시되고 있는 것이 바로 신생 항원을 활용한 암 백신이다. 각 환자의 암 조직에는 정상 조직에서는 발견되지 않는 돌연변이가 존재하는데 이러한 돌연변이로부터 유래하는 펩타이드를 신생 항원으로 활용하여 환자의 면역 시스템이 해당 신생 항원을 인지 및 공격할 수 있게끔 하는 것이 암 백신의 핵심 전략이다. 이 과정에 필수적으로 선결되어야 하는 과정은 첫번째, 돌연변이 유래 펩타이드와 환자 특이적 HLA 대립 유전자 간의 안정적인 결합이며, 두번째는 해당 돌연변이 유래 펩타이드가 환자의 면역 시스템을 잘 자극하는 면역원성의 유무 확인이다. 특히, 면역원성을 최대한 반영하기 위해서는 면역원성이 발생하는 모든 단계를 모사하고 주요 특징들을 추출해야 하지만 이 과정에서 누락되거나 소실되는 단계들이 발생할 수 있으며, 이러한 점을 이후 면역원성 예측에 한계점으로 작용할 수 있다.

이에 본 기술은 현재까지 알려진 면역원성을 갖는 펩타이드 및 MHC (사람의 경우에는 HLA) 서열의 조합 데이터를 기반으로 면역 과정의 누락을 방지하고 주요 특징들을 추출하는 전략을 구현하고자 하였다. 또한 신생항원으로써의 HLA와의 결합력, 펩타이드 서열 자체의 면역원성, 결합력은 있지만 면역을 유도하지 않는 면역 내성을 각각 모델링함으로 환자에게 적용 가능한 신생항원을 도출하고자 하였다. 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 발명은 상술한 필요성에 따른 것으로, 환자의 암 조직 내에 존재하는 돌연변이 유래 펩타이드 서열이 환자 특이적 HLA와 결합하는 한편, 일련의 면역 과정을 거쳐 최종적으로 면역원성을 나타내는 것을 예측하고, 이를 기반으로 암 환자 맞춤형 암 백신에 활용 가능한 신생항원을 결정하는 것을 목적으로 한다.

본 발명의 실시예들에 따른 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법은 대상 암 조직으로부터 추출된 펩타이드 서열과 HLA 대립유전자 서열을 입력으로 수신하는 단계; 상기 펩타이드 서열로부터 T 세포 활성 데이터를 획득하고, 상기 T 세포 활성 데이터를 면역성 예측 모델에 입력하여, 상기 펩타이드 서열의 면역성을 예측하는 제1 예측값을 출력하는 단계; 상기 HLA 대립유전자 서열로부터 결합 데이터를 획득하고, 상기 결합 데이터를 결합성 예측 모델에 입력하여 상기 펩타이드 서열 및 상기 HLA 대립유전자 서열의 결합성을 예측하는 제2 예측값을 출력하는 단계; 면역 내성 예측 모델에 상기 T 세포 활성 데이터 및 상기 결합 데이터를 입력하여, 상기 대상 암 조직의 면역 내성을 예측하는 제3 예측값을 출력하는 단계; 및 상기 T 세포 활성 데이터 및 상기 제1 내지 제3 예측값을 이용하여 상기 대상 세포에 대한 신생항원 정보를 생성하는 단계를 포함할 수 있다.

상기 면역성 예측 모델, 상기 결합성 예측 모델, 및 상기 면역 내성 예측 모델 중 적어도 하나는 복수의 대상 암 조직들에 존재하는 펩타이드 서열 및 HLA 대립유전자 서열을 포함하는 훈련 데이터 세트를 기반으로 기계학습 알고리즘에 의해 훈련될 수 있다.

상기 대상 암 조직은 단일 MHC 부류 I 또는 부류 II 대립 유전자를 발현하도록 조작된 세포를 포함할 수 있다.

상기 대상 암 조직은 복수의 환자로부터 수득되거나 이로부터 유래된 인간 세포를 포함할 수 있다.

상기 대상 암 조직은 복수의 환자로부터 수득된 신선한 또는 냉동된 종양 세포를 포함할 수 있다.

상기 대상 암 조직은 복수의 환자로부터 수득된 신선한 또는 냉동된 조직 세포를 포함할 수 있다.

상기 대상 암 조직은 T- 세포 분석을 사용하여 확인된 펩타이드를 포함할 수 있다.

상기 훈련 데이터 세트는 상기 대상 암 조직과 관련된 단백체 서열과 관련된 데이터, 상기 대상 암 조직과 관련된 MHC 펩타이드 서열과 관련된 데이터, 상기 대상 암 조직과 관련된 펩타이드와 HLA 대립 유전자 간의 결합 데이터, 상기 대상 암 조직과 관련된 전사체와 관련된 데이터, 상기 대상 암 조직과 관련된 게놈과 관련된 데이터 중 적어도 하나를 포함할 수 있다.

상기 면역성 예측 모델은 펩타이드 서열로부터의 T 세포 활성 데이터를 입력으로, 상기 펩타이드 서열의 면역성을 출력으로 학습된 모델일 수 있다.

상기 결합성 예측 모델은 HLA 대립유전자 서열 및 펩타이드 서열로부터의 결합 데이터를 입력으로, 상기 펩타이드 서열 및 상기 HLA 대립유전자 서열의 결합성을 출력으로 학습된 모델일 수 있다.

상기 면역 내성 예측 모델은 펩타이드 서열 및 HLA 대립유전자 서열로부터의 T 세포 활성 데이터 및 HLA 대립유전자 서열 및 펩타이드 서열로부터의 결합 데이터를 입력으로, 펩타이드 서열 및 HLA 대립유전자 서열 사이의 면역 내성을 출력으로 학습된 모델일 수 있다.

본 발명의 실시예에 따른 컴퓨터 프로그램은 컴퓨터를 이용하여 본 발명의 실시예에 따른 방법 중 어느 하나의 방법을 실행시키기 위하여 매체에 저장될 수 있다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해 질 것이다.

상기한 바와 같이 이루어진 본 발명의 일 실시예에 따르면, 암 조직에 포함된 펩타이드 서열 및 HLA 대립유전자 서열 사이의 결합력 뿐만 아니라, 펩타이드 서열의 면역성을 측정하고, 측정된 면역성을 기초로 암 조직 내 신생항원을 결정할 수 있다.

도 1은 본 발명의 실시예들에 따른 신생항원 결정 장치(100)의 블록도이다.
도 2은 한국인들의 세포 안에 포함된 HLA 클래스 I의 타입 정보에 대한 예시 도면이다.
도 3는 본 발명의 실시예들에 따른 신생항원 결정 장치(100)의 블록도이다.
도 4는 신생항원 결정 장치(100)의 입력 데이터(input) 및 출력 데이터(output)를 설명하는 도면이다.
도 5 내지 도 7은 본 발명의 실시예들에 따른 신생항원 결정 시스템의 구현 예시 들에 대한 도면들이다.
도 8은 면역성 예측 모델, 결합성 예측 모델, 면역 내성 예측 모델 등을 학습시키는 학습 서버(10)의 블록도이다.
도 9은 면역성 예측 모델, 결합성 예측 모델, 면역 내성 예측 모델에 대한 예시 도면이다.

이하 첨부된 도면들에 도시된 본 발명에 관한 실시예를 참조하여 본 발명의 구성 및 작용을 상세히 설명한다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다.

이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.

도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

어떤 실시예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다.

여기서, 대상 암 조직은 실험의 대상이 되는 조직을 의미한다. 예를 들어, 대상 암 조직은 면역 반응을 일으킬 수 있는 항원을 탐지하고자 하는 암 조직일 수 있다. 바람직하게, 상기 대상 암 조직은 종양세포 또는 암세포의 집합체일 수 있다.

여기서, 돌연변이는 각 생명체 내 유전 정보를 담고 있는 유전자의 염기서열 A (아데닌), T (타이민), G (구아닌), C (사이토신)의 배열이 해당 종의 원본 유전 정보와 상이하게 변질되는 모든 현상을 의미한다. 이러한 돌연변이는 소규모 또는 대규모로 구조적 변이를 유발하며 소규모 돌연변이는 단일 염기서열이 변환되어 나타나는 점 돌연변이가 있으며 염기서열이 추가로 삽입되거나 결실되는 돌연변이도 존재한다. 대규모로 발생하여 구조에 영향을 미치는 돌연변이는 유전자 중복, 유전자 결실, 염색체 역위, 간질성 결실, 염색체 전위, 이형접합 소실 등이 있다.

돌연변이는 발생하는 세포의 종류에 따라 크게 생식세포 돌연변이와 체성 돌연변이로 구분된다. 체성 돌연변이는 체세포에 생기는 유전자 돌연변이로, 체세포 돌연변이, 체세포 변이라고도 하며, 유전자의 돌연변이, 염색체 이상에 기인할 수 있다.

이러한 돌연변이의 발생으로 인하여 해당 유전자에 의해 생산되는 단백질의 기능에 변화가 발생할 수 있으며 특정 기능이 소실되거나 다른 기능으로 활성화될 수도 있다. 이러한 단백질 기능의 변화는 암 발생을 야기시키거나 가속화하므로 이러한 돌연변이는 암 발생 및 진행과 직간접적으로 깊은 관련이 있을 수 있다.

상술한 바와 같이 생명체의 유전정보를 담고 있는 DNA내 염기서열은 A,T,G,C로 이루어져 있으며 이러한 염기서열이 일렬로 3개씩 모이면 하나의 특정 아미노산를 형성하는 코드가 되며 이러한 코드가 여러 개 모이면 하나의 단백질로 변환이 가능하다. 아미노산은 알라닌(Ala), 시스테인(Cys), 아스파르트산 (Asp), 글루탐산 (Glu), 페닐알라닌 (Phe), 글라이신 (Gly), 히스티딘 (His), 아이소류신(Ile), 라이신 (Lys), 류신 (Leu), 메티오닌 (Met), 아스파라긴 (Asn), 파롤라이신 (Ply), 프롤린 (Pro), 글루타민 (Gln), 아르기닌 (Arg), 세린 (Ser), 트레오닌 (Thr), 셀레노시스테인 (Sec), 발린 (Val), 트립토판(Trp), 타이로신 (Tyr) 으로 이루어져 있다.

펩타이드는 아미노산 서열들이 이루는 펩타이드 또는 폴리 펩타이드를 의미할 수 있다. 생명체 내에는 각 종 내 유전 정보에서 유래되지 않는 외부 물질을 제거하기 위한 면역 시스템이 존재하며 특히, 외부 유래 펩타이드 중 면역 반응을 일으킬 수 있는 면역원성 펩타이드가 존재한다. 암 발생 과정에서 원본 유전 정보와 다르게 발생하는 돌연변이 역시 이러한 면역원성 펩타이드를 생성하여 이러한 펩타이드는 일련의 면역 시스템 내 과정을 거쳐 MHC I 단백질과 결합할 수 있다. 더 나아가, 상기 면역원성 펩타이드는 돌연변이 아미노산 서열을 가질 수 있으며, 그의 아미노산 길이는 25개 이하일 수 있으나 이에 한정되지 않고 다양한 길이 일 수 있다.

신생항원은 면역반응을 일으키는 펩타이드를 의미한다. 즉 신생항원은 면역원성 펩타이드 일 수 있다. 신생항원은 종양세포 특이적 돌연변이에 의해 유도될 수 있으며, 종양세포의 에피토프로 나타낼 수 있다. 이하에서는 설명의 긴명함을 위해, 면역원성 펩타이드를 신생항원으로 명명하여 설명한다.

여기에서 T 세포 활성 데이터란 특정 HLA 대립유전자에 대해 특정 펩타이드 서열이 결합함으로 자극되었을 때 발생하는 면역 반응을 측정한 데이터로 multimer/tetramer, ELISPOT를 포함한 면역원성 측정 실험 방법론에 의해 검출된 세포 내 사이토카인 발현값 및 면역세포 특이적 활성 마커의 발현값 등의 데이터로 획득되며 결과값은 “Positive”, “Positive-High”, “Positive-Low”, “Positive-Intermediate”, “Negative” 으로 분류될 수 있다.

본 발명의 실시예들에 따른 신생항원 결정 장치는 대상 암 조직의 펩타이드 서열과 환자의 HLA 대립유전자 서열을 분석하여, 대상 암 조직의 치료에 이용할 대상 암 조직의 특정 펩타이드를 신생항원으로 결정할 수 있다. 대상 암 조직에 포함된 펩타이드들 중에서, 항원으로 적합한 신생항원을 결정할 수 있다. 결정된 신생항원에 작용하는 항체를 검색하여 해당 환자의 대상 암 조직의 치료에 이용할 수 있다.

도 1은 본 발명의 실시예들에 따른 신생항원 결정 장치(100)의 블록도이다.

신생항원 결정 장치(100)는 암 조직에서 유전체 데이터를 기초로 암 조직에 존재하는 질병을 치료하기 위한 신생항원 결정을 위한 장치이다.

유전체 데이터 입력부(110)는 암 조직으로부터 추출된 펩타이드 서열과 HLA 대립유전자 서열을 수신할 수 있다. 펩타이드 서열은 암 조직에 포함된 하나 이상의 펩타이드들에 대한 것일 수 있다. 펩타이드 서열은 펩타이드들에 대한 서열들을 포함하도록 2차원 매트릭스로 표현될 수 있다. HLA 대립유전자 서열은 pseudo sequence 또는 full sequence로 표현되며, 1개부터 k개의 아미노산 단위를 한 개의 단어로 설정한 워드 임베딩 기법을 통해 특정 사이즈로 임베딩 벡터로 표현될 수 있으나 이에 한정되지 않고 다양한 형식으로 표현될 수 있다.

유전체 데이터 입력부(110)는 펩타이드 서열과 HLA 대립유전자 서열을 기초로, 펩타이드들의 T 세포 활성 데이터 또는 펩타이드들과 HLA 대립유전자 사이의 결합 데이터를 개별적으로 산출할 수 있다.

유전체 데이터 입력부(110)는 펩타이드들에 대한 T 세포 활성 데이터를 측정하고 측정한 데이터가 기록된 테이블, 또는 데이터베이스를 이용하여 암 조직의 펩타이드들에 대한 T 세포 활성 데이터를 산출할 수 있다.

여기서, HLA 대립유전자는 전체 서열, pseudo 서열과 무관하게 HLA 대립유전자 서열을 1 ~ kmer 단위로 분할하고 가상의 단어 셋으로 표현하여 입력될 수 있다.

유전체 데이터 입력부(110)는 펩타이드들과 HLA 대립유전자들 사이의 모든 결합 관계들에 대한 결합력과 관련된 결합 데이터를 측정하고 측정한 결합 데이터가 기록된 테이블, 또는 데이터베이스를 이용하여 대상 암 조직의 펩타이드들과 HLA 대립유전자들 사이의 결합 데이터를 산출할 수 있다.

면역성 예측부(121)는 T 세포 활성 데이터로 펩타이드들 및 HLA들을 입력으로 하고 펩타이드들에 대한 면역성과 대응되는 예측값들을 출력할 수 있다. 면역성 예측부(121)는 T 세포 활성 데이터와, 펩타이드들에 대한 면역성으로 학습된 모델을 이용하여 펩타이드들에 대한 면역성과 대응되는 제1 예측값들을 출력할 수 있다. 펩타이드는 복수 또는 단수 일 수 있다. T 세포 활성 데이터는 펩타이드들 서열에 대한 것 및/또는 HLA들 서열에 대한 것을 포함할 수 있다.

결합성 예측부(122)는 펩타이드들과 HLA 대립유전자들 사이의 모든 결합 관계들에 대한 결합 데이터를 입력으로 하고 펩타이드들에 대한 결합성과 대응되는 제2 예측값들을 출력할 수 있다.

면역 내성 예측부(123)는 펩타이드들과 HLA 대립유전자들 사이의 모든 결합 관계들에 대한 결합 데이터를 입력으로 하고 펩타이드들에 대한 면역 내성과 대응되는 제3 예측값들을 출력할 수 있다.

신생항원 결정부(130)는 제1 내지 제3 예측값들을 기초로 학습된 결정 모델을 이용하여 대상 암 조직의 신생항원 정보를 출력할 수 있다. 신생항원 결정부(130)는 펩타이드 별로 제1 내지 제3 예측값들 중에서, 펩타이드별로 결정된 하나의 제1 내지 제3 예측값을 기초로 치료에 활용할 수 있는 면역성 및 결합성을 가지는 신생항원인지 여부를 출력할 수 있다.

이를 통해, 신생항원 결정 장치(100)는 대상 암 조직에 포함된 종양세포 또는 암세포의 결합적 특성 뿐만 아니라 면역성 특성을 고려하여 치료에 활용할 수 있는 신생항원인지 여부를 출력할 수 있다. 또한, 신생항원 결정 장치(100)는 대상 암 조직의 펩타이드들에 대한 T 세포 활성 데이터를 고려하여 신생항원인지 여부를 출력할 수 있다.

신생항원 결정 장치(100)는 도시되지 않은 통신부, 입력부, 출력부 중 적어도 하나를 포함하여 구현될 수 있으나, 이에 한정되지 않는다. 신생항원 결정 장치(100)는 출력부를 통해 신생항원 인지 여부 등의 데이터를 출력할 수 있다. 신생항원 결정 장치(100)는 입력부를 통해 데이터 출력 입력을 입력 받을 수 있다. 신생항원 결정 장치(100)는 통신부를 구비하고 외부의 장치들과 통신할 수 있다. 신생항원 결정 장치(100)의 유전체 데이터 입력부(110), 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나는 소프트웨어 또는 하드웨어로 구현될 수 있다. 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나는 하나의 구성요소로 구현될 수 있다.

대상 암 조직은 단일 MHC 부류 I 또는 부류 II 대립 유전자를 발현하도록 조작된 세포일 수 있다. 대상 암 조직은 복수의 환자로부터 수득되거나 이로부터 유래된 인간 세포일 수 있다. 대상 암 조직은 복수의 환자로부터 수득된 신선한 또는 냉동된 종양세포를 포함할 수 있다. 대상 암 조직은 복수의 환자로부터 수득된 신선한 또는 냉동된 조직세포를 포함할 수 있다. 대상 암 조직은 T-세포 분석을 사용하여 확인된 펩타이드(들)를 포함할 수 있다.

신생항원 결정 장치(100)는 복수의 대상 암 조직들을 기초로 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130)의 알고리즘을 학습시킬 수 있다. 신생항원 결정 장치(100)는 대상 암 조직들의 단백체 서열과 관련된 데이터, MHC 펩타이드 서열과 관련된 데이터, 펩타이드와 HLA 대립 유전자 간의 결합 데이터, 대상 암 조직과 관련된 전사체와 관련된 데이터, 대상 암 조직과 관련된 게놈과 관련된 데이터 등을 이용하여 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나의 알고리즘을 학습시킬 수 있다.

면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나는 펩타이드들의 길이 별로 독립적으로 구축되지 않고, 펩타이드들을 길이와 무관하게 하나의 워드로 인식하여 알고리즘(모델)을 구축할 수 있다. 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나는 워드 임베딩 기법을 이용하여 펩타이드들을 하나의 워드로 구현될 수 있다.

면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나의 알고리즘에 대한 훈련 데이터 역시, 펩타이드의 길이와 무관하게 입력될 수 있다. 신생항원 결정부(130)는 딥러닝을 이용하여 학습된 알고리즘을 이용할 수 있다.

신생항원 결정 장치(100)는 데이터를 기반으로 각각의 양성(Y)/음성(N)을 분류하는 딥러닝 모델을 구축할 수 있다. 신생항원 결정 장치(100)는 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130)에 대한 가중치(weight)를 고정하여 추가적인 신경망을 이용할 수 있다. 이를 통해, T 세포 활성 데이터 내 HLA 대립유전자와 펩타이드 간 면역 데이터를 이용하여 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나가 구현될 수 있다.

면역성 예측부(121)는 펩타이드들의 각 아미노산을 대상으로 워드 임베딩 기법을 적용할 수 있다. 면역성 예측부(121)는 워드 임베딩 기법을 적용하여 획득된 펩타이드들의 벡터에 CNN을 적용하여 특징값들을 추출할 수 있다. 여기서, 특징값들은 CNN 등과 같이 다양한 레이어들에서 학습을 통해서 획득될 수 있다. 면역성 예측부(121)는 펩타이드들의 벡터에 대한 추출된 특징값에 대해 GRU(Gated Recurrent Unit)를 적용하여 각 펩타이드의 면역성에 대한 양성 또는 음성을 훈련하는 과정을 통해 알고리즘을 생성할 수 있다.

결합성 예측부(122)는 HLA 대립유전자와 펩타이드 모두에 워드 임베딩 기법을 적용하여 벡터들을 생성하고, HLA 대립유전자의 벡터 및 펩타이드의 벡터를 대상으로 CNN을 적용하여 특징값들을 추출할 수 있다. 결합성 예측부(122)는 특징값들을 2개의 신경망에 적용하여 HLA 대립유전자의 인코더 및 펩타이드의 인코더를 생성하고, HLA 대립유전자의 인코더 및 펩타이드의 인코더를 이용하여 결합성에 대한 양성 또는 음성을 훈련하는 과정을 통해 알고리즘을 생성할 수 있다.

면역내성 예측부(123)의 알고리즘을 생성하는데 이용되는 훈련 데이터는 면역성에 대한 양성과 음성으로 나눌 수 있다. 면역내성 예측부(123)는 HLA 대립 유전자와 결합되는 결합성을 가지지만 치료 능력인 면역성이 없는 경우를 내성이 있는 펩타이드로 규정하고, 결합성 및 면역성을 가지는 펩타이드를 내성이 없는 펩타이드로 정의할 수 있다.

도 2은 한국인들의 세포 안에 포함된 HLA 클래스 I의 타입 정보에 대한 예시 도면이다.

도 3는 본 발명의 실시예들에 따른 신생항원 결정 장치(100)의 블록도이다.

도 3에 도시된 바와 같이, 신생항원 결정 장치(100)는 T 세포 활성 데이터 및 결합 데이터를 생성할 수 있다.

신생항원 결정 장치(100)의 면역성 예측부는 T 세포 활성 데이터를 입력으로, 면역성에 대한 제1 예측값을 출력할 수 있다.

결합성 예측부는 T 세포 활성 데이터 및 결합 데이터를 입력으로, 결합성에 대한 제2 예측값을 출력할 수 있다.

면역 내성 예측부는 T 세포 활성 데이터 및 결합 데이터를 입력으로, 면역 내성에 대한 제3 예측값을 출력할 수 있다.

신생항원 결정 장치(100)의 120는 면역성 예측부, 결합성 예측부, 면역 내성 예측부 외의 다양한 인자를 예측하는 예측부를 더 포함할 수 있다.

신생항원 결정 장치(100)의 130는 제1 내지 제3 예측값과 T 세포 활성 데이터를 입력으로 하여, 치료에 활용할 수 있는 신생항원인지 여부를 Y, N 중 하나로 출력할 수 있다.

도 4는 신생항원 결정 장치(100)의 입력 데이터(input) 및 출력 데이터(output)를 설명하는 도면이다.

본 발명의 실시예에 따르면, 대상 암 조직으로부터 추출된 HLA 대립유전자 서열(X1) 및 펩타이드 서열(X2)을 입력 데이터로 사용하고, 신생항원 여부와 대응되는 N/Y를 출력 데이터로 출력(return)할 수 있다.

이때, 신생항원 결정 장치(100)는 면역성 예측 모델(M1), 결합성 예측 모델(M2), 및 면역 내성 예측 모델(M3)을 이용하여, 신생항원 여부와 대응되는 N/Y를 출력할 수 있다. 이때, 면역성 예측 모델(M1)을 통해 출력된 제1 예측값, 결합성 예측 모델(M2)을 통해 출력된 제2 예측값, 면역 내성 예측 모델(M3)을 통해 출력된 제3 예측값을 입력으로, 신생항원 여부와 대응되는 N/Y를 출력으로 학습된 모델(NN)을 더 이용하여 신생항원 여부와 대응되는 N/Y를 출력(return)할 수 있다.

제1 예측값	제2 예측값	제3 예측값	출력값
Y	Y	Y	Y
Y	N	N	N
N	Y	N	N
N	N	N	N

상기 표에 도시된 바와 같이 대상 암 조직의 펩타이드 서열 및 HLA 대립유전자 서열 사이에 면역성이 있고 결합성이 없는 경우, 결합성이 있고 면역성이 없는 경우에는 신생항원 여부가 N으로 출력될 수 있다. 대상 암 조직의 펩타이드 서열 및 HLA 대립유전자 서열 사이에 면역성과 결합성이 모두 있는 경우에 신생항원 여부가 Y로 출력될 수 있다.

도 5 내지 도 7은 본 발명의 실시예들에 따른 신생항원 결정 시스템의 구현 예시 들에 대한 도면들이다.

도 5에 도시된 바와 같이, 신생항원 결정 장치(100)는 외부의 전자 장치(200)로부터 암 조직에 대한 유전체 데이터를 수신할 수 있다. 신생항원 결정 장치(100)는 출력된 암 조직의 신생항원인지 여부에 대한 정보를 전자 장치(200)로 전송할 수 있다.

전자 장치(200)는 암 조직에 대한 유전체 데이터를 저장한 하나 이상의 프로세서를 포함하는 컴퓨팅 장치일 수 있다. 전자 장치(200)는 암 조직의 유전체 데이터를 출력하는 장치일 수 있다. 전자 장치(200)는 신생항원 결정 장치(100)와 전기적으로 연결되거나 네트워크를 통해 연결되어 데이터를 송수신할 수 있다.

전자 장치(200)는 수회에 걸쳐서 복수의 샘플들의 암 조직들에 대한 유전체 데이터를 획득하여 저장할 수 있다. 신생항원 결정 장치(100)는 전자 장치(200)로부터 수신된 유전체 데이터들에 대한 신생항원인지 여부 등을 순차적으로 출력할 수 있다.

도 6에 도시된 바와 같이, 신생항원 결정 장치(100)는 복수의 전자 장치들(201, 202, …, 20n)로부터 데이터를 수신하고, 복수의 전자 장치들(201, 202, …, 20n)로 출력 데이터를 전송할 수 있다.

신생항원 결정 장치(100)는 복수의 전자 장치들(201, 202, …, 20n)로부터 유전체 데이터들을 수신할 수 있다. 복수의 전자 장치들(201, 202, …, 20n)는 하나 이상의 주체에 의해 관리될 수 있다.

도 7에 도시된 바와 같이, 신생항원 결정 장치(100)는 하나 이상의 단말 장치들(301, 302, …, 30n)의 출력부를 통해 출력 데이터를 출력시킬 수 있다. 출력 데이터는 신생항원 결정 장치(100)의 출력부를 통해 출력될 수 있다. 출력 데이터는 하나 이상의 단말 장치들(301, 302, …, 30n)의 출력부를 통해 출력될 수 있다. 신생항원 결정 장치(100)는 신생항원과 관련된 데이터를 전송함에 따라 소정의 비용에 대한 결제를 하나 이상의 단말 장치들(301, 302, …, 30n)로 요청할 수 있다. 하나 이상의 단말 장치들(301, 302, …, 30n)은 암 조직에 포함된 펩타이드들, HLA 대립유전자들에 대한 신생항원 관련 정보를 요청할 수 있다. 요청에 대응하여, 출력 데이터가 출력될 수 있다.

도 8은 면역성 예측 모델, 결합성 예측 모델, 면역 내성 예측 모델 등을 학습시키는 학습 서버(10)의 블록도이다.

학습 서버(10)은 데이터 입력부(11), 제1 학습부(12), 제2 학습부(13), 제3 학습부(14), 및 제4 학습부(15)를 포함할 수 있다.

제1 학습부(12)는 면역성 예측 모델을 학습하여 생성하는 것으로, 펩타이드 서열 또는 HLA 대립유전자 서열의 T 세포 활성 데이터 및 펩타이드 서열의 면역성을 훈련 데이터 세트로 학습하게 된다. 제1 학습부(12)에 의해 학습된 면역성 예측 모델은 도 10의 12'에 도시된 바와 같이, 펩타이드 서열을 워드 임베딩 기법으로 처리하고, 처리된 펩타이드 서열을 CNN, GRU, NN의 레이어에 입력하여 학습하게 된다.

제2 학습부(13)는 결합성 예측 모델을 학습하여 생성하는 것으로, 펩타이드 서열의 결합 데이터 또는 HLA 대립유전자 서열을 입력으로 펩타이드 서열 및 HLA 대립유전자 서열 사이의 결합성을 훈련 데이터 세트로 학습하게 된다. 제2 학습부(13)에 의해 학습된 결합성 예측 모델은 도 9의 13'에 도시된 바와 같이, 펩타이드 서열 및 HLA 대립유전자 서열을 각각 워드 임베딩 기법으로 처리하고, 처리된 펩타이드 서열을 CNN, GRU의 레이어에 입력하여 학습하고 HLA 대립유전자 서열을 CNN, CNN. GRU의 레이어에 입력하여 학습하게 된다. 결합성 예측 모델은 펩타이드 서열에 대한 결합성에 대한 예측값과 HLA 대립유전자 서열에 대한 결합성에 대한 예측값으로 또 다른 모델(NN1)을 학습시켜, 최종적으로 대상 암 조직에 대한 면역 내성에 대한 예측값을 출력하도록 학습될 수 있다.

제3 학습부(14)는 면역 내성 예측 모델을 학습하여 생성하는 것으로, 펩타이드 서열 및 HLA 대립유전자 서열을 입력으로 펩타이드 서열 및 HLA 대립유전자 서열 사이의 면역 내성을 훈련 데이터 세트로 학습하게 된다. 제3 학습부(14)에 의해 학습된 면역 내성 예측 모델은 도 10의 14'에 도시된 바와 같이, 펩타이드 서열 및 HLA 대립유전자 서열을 각각 워드 임베딩 기법으로 처리하고, 처리된 펩타이드 서열을 CNN, GRU의 레이어에 입력하여 학습하고 HLA 대립유전자 서열을 CNN, CNN, GRU의 레이어에 입력하여 학습하게 된다. 면역 내성 예측 모델은 펩타이드 서열에 대한 면역 내성에 대한 예측값과 HLA 대립유전자 서열에 대한 면역 내성에 대한 예측값으로 또 다른 모델(NN2)을 학습시켜, 최종적으로 대상 암 조직에 대한 면역 내성에 대한 예측값을 출력하도록 학습될 수 있다.

학습 서버(10)는 제1 내지 제3 학습부(12, 13, 14)에 의해 생성된 학습 모델들을 신생항원 결정 장치(100)로 전송할 수 있다. 이를 통해, 신생항원 결정 장치(100)의 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123)의 알고리즘이 주기적으로 갱신(update 업데이트) 될 수 있다. 이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

대상 암 조직으로부터 추출된 펩타이드 서열과 HLA 대립유전자 서열을 입력으로 수신하는 단계;
상기 펩타이드 서열로부터 T 세포 활성 데이터를 획득하고, 상기 T 세포 활성 데이터를 면역성 예측 모델에 입력하여, 상기 펩타이드 서열의 면역성을 예측하는 제1 예측값을 출력하는 단계;
상기 HLA 대립유전자 서열로부터 결합 데이터를 획득하고, 상기 결합 데이터를 결합성 예측 모델에 입력하여 상기 펩타이드 서열 및 상기 HLA 대립유전자 서열의 결합성을 예측하는 제2 예측값을 출력하는 단계;
면역 내성 예측 모델에 상기 T 세포 활성 데이터 및 상기 결합 데이터를 입력하여, 상기 대상 암 조직의 면역 내성을 예측하는 제3 예측값을 출력하는 단계; 및
상기 T 세포 활성 데이터 및 상기 제1 내지 제3 예측값을 이용하여 상기 대상 세포에 대한 신생항원 정보를 생성하는 단계를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
제1항에 있어서,
상기 면역성 예측 모델, 상기 결합성 예측 모델, 및 상기 면역 내성 예측 모델 중 적어도 하나는
복수의 대상 암 조직들에 존재하는 펩타이드 서열 및 HLA 대립유전자 서열을 포함하는 훈련 데이터 세트를 기반으로 기계학습 알고리즘에 의해 훈련되는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
제2항에 있어서,
상기 대상 암 조직은
단일 MHC 부류 I 또는 부류 II 대립 유전자를 발현하도록 조작된 세포를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
제2항에 있어서,
상기 대상 암 조직은
복수의 환자로부터 수득되거나 이로부터 유래된 인간 세포를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
제2항에 있어서,
상기 대상 암 조직은
복수의 환자로부터 수득된 신선한 또는 냉동된 종양 세포를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
제2항에 있어서,
상기 대상 암 조직은
복수의 환자로부터 수득된 신선한 또는 냉동된 조직 세포를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
제2항에 있어서,
상기 대상 암 조직은
T- 세포 분석을 사용하여 확인된 펩타이드를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
제2항에 있어서,
상기 훈련 데이터 세트는
상기 대상 암 조직과 관련된 단백체 서열과 관련된 데이터, 상기 대상 암 조직과 관련된 MHC 펩타이드 서열과 관련된 데이터, 상기 대상 암 조직과 관련된 펩타이드와 HLA 대립 유전자 간의 결합 데이터, 상기 대상 암 조직과 관련된 전사체와 관련된 데이터, 상기 대상 암 조직과 관련된 게놈과 관련된 데이터 중 적어도 하나를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
제1항에 있어서,
상기 면역성 예측 모델은
펩타이드 서열로부터의 T 세포 활성 데이터를 입력으로, 상기 펩타이드 서열의 면역성을 출력으로 학습된 모델인, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
제1항에 있어서,
상기 결합성 예측 모델은
HLA 대립유전자 서열 및 펩타이드 서열로부터의 결합 데이터를 입력으로, 상기 펩타이드 서열 및 상기 HLA 대립유전자 서열의 결합성을 출력으로 학습된 모델인, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
제1항에 있어서,
상기 면역 내성 예측 모델은
펩타이드 서열 및 HLA 대립유전자 서열로부터의 T 세포 활성 데이터 및 HLA 대립유전자 서열 및 펩타이드 서열로부터의 결합 데이터를 입력으로, 펩타이드 서열 및 HLA 대립유전자 서열 사이의 면역 내성을 출력으로 학습된 모델인, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
컴퓨터를 이용하여 제1항 내지 제11항 중 어느 한 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.