KR102159921B1 - 펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램 - Google Patents

펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102159921B1
KR102159921B1 KR1020200035815A KR20200035815A KR102159921B1 KR 102159921 B1 KR102159921 B1 KR 102159921B1 KR 1020200035815 A KR1020200035815 A KR 1020200035815A KR 20200035815 A KR20200035815 A KR 20200035815A KR 102159921 B1 KR102159921 B1 KR 102159921B1
Authority
KR
South Korea
Prior art keywords
sequence
hla allele
peptide sequence
data
neoantigen
Prior art date
Application number
KR1020200035815A
Other languages
English (en)
Inventor
황태순
홍성의
송상훈
Original Assignee
주식회사 테라젠바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 테라젠바이오 filed Critical 주식회사 테라젠바이오
Priority to KR1020200035815A priority Critical patent/KR102159921B1/ko
Application granted granted Critical
Publication of KR102159921B1 publication Critical patent/KR102159921B1/ko
Priority to PCT/KR2020/019017 priority patent/WO2021194057A1/ko
Priority to US17/909,866 priority patent/US20240203522A1/en
Priority to EP20926771.5A priority patent/EP4131275A4/en
Priority to JP2022555140A priority patent/JP2023518725A/ja
Priority to CN202080098581.0A priority patent/CN115298739A/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Medicinal Chemistry (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Peptides Or Proteins (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 개시는 대상 암 조직으로부터 추출된 펩타이드 서열과 HLA 대립유전자 서열을 입력으로 수신하는 단계; 상기 펩타이드 서열로부터 T 세포 활성 데이터를 획득하고, 상기 T 세포 활성 데이터를 면역성 예측 모델에 입력하여, 상기 펩타이드 서열의 면역성을 예측하는 제1 예측값을 출력하는 단계; 상기 HLA 대립유전자 서열로부터 결합 데이터를 획득하고, 상기 결합 데이터를 결합성 예측 모델에 입력하여 상기 펩타이드 서열 및 상기 HLA 대립유전자 서열의 결합성을 예측하는 제2 예측값을 출력하는 단계; 면역 내성 예측 모델에 상기 T 세포 활성 데이터 및 상기 결합 데이터를 입력하여, 상기 대상 암 조직의 면역 내성을 예측하는 제3 예측값을 출력하는 단계; 및 상기 T 세포 활성 데이터 및 상기 제1 내지 제3 예측값을 이용하여 상기 대상 세포에 대한 신생항원 정보를 생성하는 단계를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법을 개시한다.

Description

펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램{METHOD FOR PREDICTING NEOANTIGEN USING A PEPTIDE SEQUENCE AND HLA ALLELE SEQUENCE AND COMPUTER PROGRAM}
본 개시는 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램에 관한 것이다.
항암 신약 물질 개발의 발전으로 인해 1세대 항암제인 화학항암제, 2세대 표적항암제를 거쳐 최근 3세대 면역항암제가 각광을 받고 있다. 특히 3세대 면역항암제의 경우, 앞선 항암제와 다르게 환자 자신의 면역 시스템을 활용한 치료 전략이므로 부작용이 현저하게 낮은 장점이 있다. 하지만 이러한 장점에도 불구하고 PD-L1과 같은 표지 유전자의 발현 및 현미부수체 불안정 (MSI-H)를 보이는 환자만이 면역항암제를 이용한 치료 전략이 수립 가능한 한계를 갖고 있다. 이러한 제약으로 인해 기존 항암제 투여가 어려운 환자를 치료하기 위한 전략 수립이 필요하며 대안 중 하나로 제시되고 있는 것이 바로 신생 항원을 활용한 암 백신이다. 각 환자의 암 조직에는 정상 조직에서는 발견되지 않는 돌연변이가 존재하는데 이러한 돌연변이로부터 유래하는 펩타이드를 신생 항원으로 활용하여 환자의 면역 시스템이 해당 신생 항원을 인지 및 공격할 수 있게끔 하는 것이 암 백신의 핵심 전략이다. 이 과정에 필수적으로 선결되어야 하는 과정은 첫번째, 돌연변이 유래 펩타이드와 환자 특이적 HLA 대립 유전자 간의 안정적인 결합이며, 두번째는 해당 돌연변이 유래 펩타이드가 환자의 면역 시스템을 잘 자극하는 면역원성의 유무 확인이다. 특히, 면역원성을 최대한 반영하기 위해서는 면역원성이 발생하는 모든 단계를 모사하고 주요 특징들을 추출해야 하지만 이 과정에서 누락되거나 소실되는 단계들이 발생할 수 있으며, 이러한 점을 이후 면역원성 예측에 한계점으로 작용할 수 있다.
이에 본 기술은 현재까지 알려진 면역원성을 갖는 펩타이드 및 MHC (사람의 경우에는 HLA) 서열의 조합 데이터를 기반으로 면역 과정의 누락을 방지하고 주요 특징들을 추출하는 전략을 구현하고자 하였다. 또한 신생항원으로써의 HLA와의 결합력, 펩타이드 서열 자체의 면역원성, 결합력은 있지만 면역을 유도하지 않는 면역 내성을 각각 모델링함으로 환자에게 적용 가능한 신생항원을 도출하고자 하였다. 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
본 발명은 상술한 필요성에 따른 것으로, 환자의 암 조직 내에 존재하는 돌연변이 유래 펩타이드 서열이 환자 특이적 HLA와 결합하는 한편, 일련의 면역 과정을 거쳐 최종적으로 면역원성을 나타내는 것을 예측하고, 이를 기반으로 암 환자 맞춤형 암 백신에 활용 가능한 신생항원을 결정하는 것을 목적으로 한다.
본 발명의 실시예들에 따른 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법은 대상 암 조직으로부터 추출된 펩타이드 서열과 HLA 대립유전자 서열을 입력으로 수신하는 단계; 상기 펩타이드 서열로부터 T 세포 활성 데이터를 획득하고, 상기 T 세포 활성 데이터를 면역성 예측 모델에 입력하여, 상기 펩타이드 서열의 면역성을 예측하는 제1 예측값을 출력하는 단계; 상기 HLA 대립유전자 서열로부터 결합 데이터를 획득하고, 상기 결합 데이터를 결합성 예측 모델에 입력하여 상기 펩타이드 서열 및 상기 HLA 대립유전자 서열의 결합성을 예측하는 제2 예측값을 출력하는 단계; 면역 내성 예측 모델에 상기 T 세포 활성 데이터 및 상기 결합 데이터를 입력하여, 상기 대상 암 조직의 면역 내성을 예측하는 제3 예측값을 출력하는 단계; 및 상기 T 세포 활성 데이터 및 상기 제1 내지 제3 예측값을 이용하여 상기 대상 세포에 대한 신생항원 정보를 생성하는 단계를 포함할 수 있다.
상기 면역성 예측 모델, 상기 결합성 예측 모델, 및 상기 면역 내성 예측 모델 중 적어도 하나는 복수의 대상 암 조직들에 존재하는 펩타이드 서열 및 HLA 대립유전자 서열을 포함하는 훈련 데이터 세트를 기반으로 기계학습 알고리즘에 의해 훈련될 수 있다.
상기 대상 암 조직은 단일 MHC 부류 I 또는 부류 II 대립 유전자를 발현하도록 조작된 세포를 포함할 수 있다.
상기 대상 암 조직은 복수의 환자로부터 수득되거나 이로부터 유래된 인간 세포를 포함할 수 있다.
상기 대상 암 조직은 복수의 환자로부터 수득된 신선한 또는 냉동된 종양 세포를 포함할 수 있다.
상기 대상 암 조직은 복수의 환자로부터 수득된 신선한 또는 냉동된 조직 세포를 포함할 수 있다.
상기 대상 암 조직은 T- 세포 분석을 사용하여 확인된 펩타이드를 포함할 수 있다.
상기 훈련 데이터 세트는 상기 대상 암 조직과 관련된 단백체 서열과 관련된 데이터, 상기 대상 암 조직과 관련된 MHC 펩타이드 서열과 관련된 데이터, 상기 대상 암 조직과 관련된 펩타이드와 HLA 대립 유전자 간의 결합 데이터, 상기 대상 암 조직과 관련된 전사체와 관련된 데이터, 상기 대상 암 조직과 관련된 게놈과 관련된 데이터 중 적어도 하나를 포함할 수 있다.
상기 면역성 예측 모델은 펩타이드 서열로부터의 T 세포 활성 데이터를 입력으로, 상기 펩타이드 서열의 면역성을 출력으로 학습된 모델일 수 있다.
상기 결합성 예측 모델은 HLA 대립유전자 서열 및 펩타이드 서열로부터의 결합 데이터를 입력으로, 상기 펩타이드 서열 및 상기 HLA 대립유전자 서열의 결합성을 출력으로 학습된 모델일 수 있다.
상기 면역 내성 예측 모델은 펩타이드 서열 및 HLA 대립유전자 서열로부터의 T 세포 활성 데이터 및 HLA 대립유전자 서열 및 펩타이드 서열로부터의 결합 데이터를 입력으로, 펩타이드 서열 및 HLA 대립유전자 서열 사이의 면역 내성을 출력으로 학습된 모델일 수 있다.
본 발명의 실시예에 따른 컴퓨터 프로그램은 컴퓨터를 이용하여 본 발명의 실시예에 따른 방법 중 어느 하나의 방법을 실행시키기 위하여 매체에 저장될 수 있다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해 질 것이다.
상기한 바와 같이 이루어진 본 발명의 일 실시예에 따르면, 암 조직에 포함된 펩타이드 서열 및 HLA 대립유전자 서열 사이의 결합력 뿐만 아니라, 펩타이드 서열의 면역성을 측정하고, 측정된 면역성을 기초로 암 조직 내 신생항원을 결정할 수 있다.
도 1은 본 발명의 실시예들에 따른 신생항원 결정 장치(100)의 블록도이다.
도 2은 한국인들의 세포 안에 포함된 HLA 클래스 I의 타입 정보에 대한 예시 도면이다.
도 3는 본 발명의 실시예들에 따른 신생항원 결정 장치(100)의 블록도이다.
도 4는 신생항원 결정 장치(100)의 입력 데이터(input) 및 출력 데이터(output)를 설명하는 도면이다.
도 5 내지 도 7은 본 발명의 실시예들에 따른 신생항원 결정 시스템의 구현 예시 들에 대한 도면들이다.
도 8은 면역성 예측 모델, 결합성 예측 모델, 면역 내성 예측 모델 등을 학습시키는 학습 서버(10)의 블록도이다.
도 9은 면역성 예측 모델, 결합성 예측 모델, 면역 내성 예측 모델에 대한 예시 도면이다.
이하 첨부된 도면들에 도시된 본 발명에 관한 실시예를 참조하여 본 발명의 구성 및 작용을 상세히 설명한다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다.
이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.
도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.
어떤 실시예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다.
여기서, 대상 암 조직은 실험의 대상이 되는 조직을 의미한다. 예를 들어, 대상 암 조직은 면역 반응을 일으킬 수 있는 항원을 탐지하고자 하는 암 조직일 수 있다. 바람직하게, 상기 대상 암 조직은 종양세포 또는 암세포의 집합체일 수 있다.
여기서, 돌연변이는 각 생명체 내 유전 정보를 담고 있는 유전자의 염기서열 A (아데닌), T (타이민), G (구아닌), C (사이토신)의 배열이 해당 종의 원본 유전 정보와 상이하게 변질되는 모든 현상을 의미한다. 이러한 돌연변이는 소규모 또는 대규모로 구조적 변이를 유발하며 소규모 돌연변이는 단일 염기서열이 변환되어 나타나는 점 돌연변이가 있으며 염기서열이 추가로 삽입되거나 결실되는 돌연변이도 존재한다. 대규모로 발생하여 구조에 영향을 미치는 돌연변이는 유전자 중복, 유전자 결실, 염색체 역위, 간질성 결실, 염색체 전위, 이형접합 소실 등이 있다.
돌연변이는 발생하는 세포의 종류에 따라 크게 생식세포 돌연변이와 체성 돌연변이로 구분된다. 체성 돌연변이는 체세포에 생기는 유전자 돌연변이로, 체세포 돌연변이, 체세포 변이라고도 하며, 유전자의 돌연변이, 염색체 이상에 기인할 수 있다.
이러한 돌연변이의 발생으로 인하여 해당 유전자에 의해 생산되는 단백질의 기능에 변화가 발생할 수 있으며 특정 기능이 소실되거나 다른 기능으로 활성화될 수도 있다. 이러한 단백질 기능의 변화는 암 발생을 야기시키거나 가속화하므로 이러한 돌연변이는 암 발생 및 진행과 직간접적으로 깊은 관련이 있을 수 있다.
상술한 바와 같이 생명체의 유전정보를 담고 있는 DNA내 염기서열은 A,T,G,C로 이루어져 있으며 이러한 염기서열이 일렬로 3개씩 모이면 하나의 특정 아미노산를 형성하는 코드가 되며 이러한 코드가 여러 개 모이면 하나의 단백질로 변환이 가능하다. 아미노산은 알라닌(Ala), 시스테인(Cys), 아스파르트산 (Asp), 글루탐산 (Glu), 페닐알라닌 (Phe), 글라이신 (Gly), 히스티딘 (His), 아이소류신(Ile), 라이신 (Lys), 류신 (Leu), 메티오닌 (Met), 아스파라긴 (Asn), 파롤라이신 (Ply), 프롤린 (Pro), 글루타민 (Gln), 아르기닌 (Arg), 세린 (Ser), 트레오닌 (Thr), 셀레노시스테인 (Sec), 발린 (Val), 트립토판(Trp), 타이로신 (Tyr) 으로 이루어져 있다.
펩타이드는 아미노산 서열들이 이루는 펩타이드 또는 폴리 펩타이드를 의미할 수 있다. 생명체 내에는 각 종 내 유전 정보에서 유래되지 않는 외부 물질을 제거하기 위한 면역 시스템이 존재하며 특히, 외부 유래 펩타이드 중 면역 반응을 일으킬 수 있는 면역원성 펩타이드가 존재한다. 암 발생 과정에서 원본 유전 정보와 다르게 발생하는 돌연변이 역시 이러한 면역원성 펩타이드를 생성하여 이러한 펩타이드는 일련의 면역 시스템 내 과정을 거쳐 MHC I 단백질과 결합할 수 있다. 더 나아가, 상기 면역원성 펩타이드는 돌연변이 아미노산 서열을 가질 수 있으며, 그의 아미노산 길이는 25개 이하일 수 있으나 이에 한정되지 않고 다양한 길이 일 수 있다.
신생항원은 면역반응을 일으키는 펩타이드를 의미한다. 즉 신생항원은 면역원성 펩타이드 일 수 있다. 신생항원은 종양세포 특이적 돌연변이에 의해 유도될 수 있으며, 종양세포의 에피토프로 나타낼 수 있다. 이하에서는 설명의 긴명함을 위해, 면역원성 펩타이드를 신생항원으로 명명하여 설명한다.
여기에서 T 세포 활성 데이터란 특정 HLA 대립유전자에 대해 특정 펩타이드 서열이 결합함으로 자극되었을 때 발생하는 면역 반응을 측정한 데이터로 multimer/tetramer, ELISPOT를 포함한 면역원성 측정 실험 방법론에 의해 검출된 세포 내 사이토카인 발현값 및 면역세포 특이적 활성 마커의 발현값 등의 데이터로 획득되며 결과값은 “Positive”, “Positive-High”, “Positive-Low”, “Positive-Intermediate”, “Negative” 으로 분류될 수 있다.
본 발명의 실시예들에 따른 신생항원 결정 장치는 대상 암 조직의 펩타이드 서열과 환자의 HLA 대립유전자 서열을 분석하여, 대상 암 조직의 치료에 이용할 대상 암 조직의 특정 펩타이드를 신생항원으로 결정할 수 있다. 대상 암 조직에 포함된 펩타이드들 중에서, 항원으로 적합한 신생항원을 결정할 수 있다. 결정된 신생항원에 작용하는 항체를 검색하여 해당 환자의 대상 암 조직의 치료에 이용할 수 있다.
도 1은 본 발명의 실시예들에 따른 신생항원 결정 장치(100)의 블록도이다.
신생항원 결정 장치(100)는 암 조직에서 유전체 데이터를 기초로 암 조직에 존재하는 질병을 치료하기 위한 신생항원 결정을 위한 장치이다.
유전체 데이터 입력부(110)는 암 조직으로부터 추출된 펩타이드 서열과 HLA 대립유전자 서열을 수신할 수 있다. 펩타이드 서열은 암 조직에 포함된 하나 이상의 펩타이드들에 대한 것일 수 있다. 펩타이드 서열은 펩타이드들에 대한 서열들을 포함하도록 2차원 매트릭스로 표현될 수 있다. HLA 대립유전자 서열은 pseudo sequence 또는 full sequence로 표현되며, 1개부터 k개의 아미노산 단위를 한 개의 단어로 설정한 워드 임베딩 기법을 통해 특정 사이즈로 임베딩 벡터로 표현될 수 있으나 이에 한정되지 않고 다양한 형식으로 표현될 수 있다.
유전체 데이터 입력부(110)는 펩타이드 서열과 HLA 대립유전자 서열을 기초로, 펩타이드들의 T 세포 활성 데이터 또는 펩타이드들과 HLA 대립유전자 사이의 결합 데이터를 개별적으로 산출할 수 있다.
유전체 데이터 입력부(110)는 펩타이드들에 대한 T 세포 활성 데이터를 측정하고 측정한 데이터가 기록된 테이블, 또는 데이터베이스를 이용하여 암 조직의 펩타이드들에 대한 T 세포 활성 데이터를 산출할 수 있다.
여기서, HLA 대립유전자는 전체 서열, pseudo 서열과 무관하게 HLA 대립유전자 서열을 1 ~ kmer 단위로 분할하고 가상의 단어 셋으로 표현하여 입력될 수 있다.
유전체 데이터 입력부(110)는 펩타이드들과 HLA 대립유전자들 사이의 모든 결합 관계들에 대한 결합력과 관련된 결합 데이터를 측정하고 측정한 결합 데이터가 기록된 테이블, 또는 데이터베이스를 이용하여 대상 암 조직의 펩타이드들과 HLA 대립유전자들 사이의 결합 데이터를 산출할 수 있다.
면역성 예측부(121)는 T 세포 활성 데이터로 펩타이드들 및 HLA들을 입력으로 하고 펩타이드들에 대한 면역성과 대응되는 예측값들을 출력할 수 있다. 면역성 예측부(121)는 T 세포 활성 데이터와, 펩타이드들에 대한 면역성으로 학습된 모델을 이용하여 펩타이드들에 대한 면역성과 대응되는 제1 예측값들을 출력할 수 있다. 펩타이드는 복수 또는 단수 일 수 있다. T 세포 활성 데이터는 펩타이드들 서열에 대한 것 및/또는 HLA들 서열에 대한 것을 포함할 수 있다.
결합성 예측부(122)는 펩타이드들과 HLA 대립유전자들 사이의 모든 결합 관계들에 대한 결합 데이터를 입력으로 하고 펩타이드들에 대한 결합성과 대응되는 제2 예측값들을 출력할 수 있다.
면역 내성 예측부(123)는 펩타이드들과 HLA 대립유전자들 사이의 모든 결합 관계들에 대한 결합 데이터를 입력으로 하고 펩타이드들에 대한 면역 내성과 대응되는 제3 예측값들을 출력할 수 있다.
신생항원 결정부(130)는 제1 내지 제3 예측값들을 기초로 학습된 결정 모델을 이용하여 대상 암 조직의 신생항원 정보를 출력할 수 있다. 신생항원 결정부(130)는 펩타이드 별로 제1 내지 제3 예측값들 중에서, 펩타이드별로 결정된 하나의 제1 내지 제3 예측값을 기초로 치료에 활용할 수 있는 면역성 및 결합성을 가지는 신생항원인지 여부를 출력할 수 있다.
이를 통해, 신생항원 결정 장치(100)는 대상 암 조직에 포함된 종양세포 또는 암세포의 결합적 특성 뿐만 아니라 면역성 특성을 고려하여 치료에 활용할 수 있는 신생항원인지 여부를 출력할 수 있다. 또한, 신생항원 결정 장치(100)는 대상 암 조직의 펩타이드들에 대한 T 세포 활성 데이터를 고려하여 신생항원인지 여부를 출력할 수 있다.
신생항원 결정 장치(100)는 도시되지 않은 통신부, 입력부, 출력부 중 적어도 하나를 포함하여 구현될 수 있으나, 이에 한정되지 않는다. 신생항원 결정 장치(100)는 출력부를 통해 신생항원 인지 여부 등의 데이터를 출력할 수 있다. 신생항원 결정 장치(100)는 입력부를 통해 데이터 출력 입력을 입력 받을 수 있다. 신생항원 결정 장치(100)는 통신부를 구비하고 외부의 장치들과 통신할 수 있다. 신생항원 결정 장치(100)의 유전체 데이터 입력부(110), 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나는 소프트웨어 또는 하드웨어로 구현될 수 있다. 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나는 하나의 구성요소로 구현될 수 있다.
대상 암 조직은 단일 MHC 부류 I 또는 부류 II 대립 유전자를 발현하도록 조작된 세포일 수 있다. 대상 암 조직은 복수의 환자로부터 수득되거나 이로부터 유래된 인간 세포일 수 있다. 대상 암 조직은 복수의 환자로부터 수득된 신선한 또는 냉동된 종양세포를 포함할 수 있다. 대상 암 조직은 복수의 환자로부터 수득된 신선한 또는 냉동된 조직세포를 포함할 수 있다. 대상 암 조직은 T-세포 분석을 사용하여 확인된 펩타이드(들)를 포함할 수 있다.
신생항원 결정 장치(100)는 복수의 대상 암 조직들을 기초로 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130)의 알고리즘을 학습시킬 수 있다. 신생항원 결정 장치(100)는 대상 암 조직들의 단백체 서열과 관련된 데이터, MHC 펩타이드 서열과 관련된 데이터, 펩타이드와 HLA 대립 유전자 간의 결합 데이터, 대상 암 조직과 관련된 전사체와 관련된 데이터, 대상 암 조직과 관련된 게놈과 관련된 데이터 등을 이용하여 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나의 알고리즘을 학습시킬 수 있다.
면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나는 펩타이드들의 길이 별로 독립적으로 구축되지 않고, 펩타이드들을 길이와 무관하게 하나의 워드로 인식하여 알고리즘(모델)을 구축할 수 있다. 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나는 워드 임베딩 기법을 이용하여 펩타이드들을 하나의 워드로 구현될 수 있다.
면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나의 알고리즘에 대한 훈련 데이터 역시, 펩타이드의 길이와 무관하게 입력될 수 있다. 신생항원 결정부(130)는 딥러닝을 이용하여 학습된 알고리즘을 이용할 수 있다.
신생항원 결정 장치(100)는 데이터를 기반으로 각각의 양성(Y)/음성(N)을 분류하는 딥러닝 모델을 구축할 수 있다. 신생항원 결정 장치(100)는 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130)에 대한 가중치(weight)를 고정하여 추가적인 신경망을 이용할 수 있다. 이를 통해, T 세포 활성 데이터 내 HLA 대립유전자와 펩타이드 간 면역 데이터를 이용하여 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123), 신생항원 결정부(130) 중 적어도 하나가 구현될 수 있다.
면역성 예측부(121)는 펩타이드들의 각 아미노산을 대상으로 워드 임베딩 기법을 적용할 수 있다. 면역성 예측부(121)는 워드 임베딩 기법을 적용하여 획득된 펩타이드들의 벡터에 CNN을 적용하여 특징값들을 추출할 수 있다. 여기서, 특징값들은 CNN 등과 같이 다양한 레이어들에서 학습을 통해서 획득될 수 있다. 면역성 예측부(121)는 펩타이드들의 벡터에 대한 추출된 특징값에 대해 GRU(Gated Recurrent Unit)를 적용하여 각 펩타이드의 면역성에 대한 양성 또는 음성을 훈련하는 과정을 통해 알고리즘을 생성할 수 있다.
결합성 예측부(122)는 HLA 대립유전자와 펩타이드 모두에 워드 임베딩 기법을 적용하여 벡터들을 생성하고, HLA 대립유전자의 벡터 및 펩타이드의 벡터를 대상으로 CNN을 적용하여 특징값들을 추출할 수 있다. 결합성 예측부(122)는 특징값들을 2개의 신경망에 적용하여 HLA 대립유전자의 인코더 및 펩타이드의 인코더를 생성하고, HLA 대립유전자의 인코더 및 펩타이드의 인코더를 이용하여 결합성에 대한 양성 또는 음성을 훈련하는 과정을 통해 알고리즘을 생성할 수 있다.
면역내성 예측부(123)의 알고리즘을 생성하는데 이용되는 훈련 데이터는 면역성에 대한 양성과 음성으로 나눌 수 있다. 면역내성 예측부(123)는 HLA 대립 유전자와 결합되는 결합성을 가지지만 치료 능력인 면역성이 없는 경우를 내성이 있는 펩타이드로 규정하고, 결합성 및 면역성을 가지는 펩타이드를 내성이 없는 펩타이드로 정의할 수 있다.
도 2은 한국인들의 세포 안에 포함된 HLA 클래스 I의 타입 정보에 대한 예시 도면이다.
도 3는 본 발명의 실시예들에 따른 신생항원 결정 장치(100)의 블록도이다.
도 3에 도시된 바와 같이, 신생항원 결정 장치(100)는 T 세포 활성 데이터 및 결합 데이터를 생성할 수 있다.
신생항원 결정 장치(100)의 면역성 예측부는 T 세포 활성 데이터를 입력으로, 면역성에 대한 제1 예측값을 출력할 수 있다.
결합성 예측부는 T 세포 활성 데이터 및 결합 데이터를 입력으로, 결합성에 대한 제2 예측값을 출력할 수 있다.
면역 내성 예측부는 T 세포 활성 데이터 및 결합 데이터를 입력으로, 면역 내성에 대한 제3 예측값을 출력할 수 있다.
신생항원 결정 장치(100)의 120는 면역성 예측부, 결합성 예측부, 면역 내성 예측부 외의 다양한 인자를 예측하는 예측부를 더 포함할 수 있다.
신생항원 결정 장치(100)의 130는 제1 내지 제3 예측값과 T 세포 활성 데이터를 입력으로 하여, 치료에 활용할 수 있는 신생항원인지 여부를 Y, N 중 하나로 출력할 수 있다.
도 4는 신생항원 결정 장치(100)의 입력 데이터(input) 및 출력 데이터(output)를 설명하는 도면이다.
본 발명의 실시예에 따르면, 대상 암 조직으로부터 추출된 HLA 대립유전자 서열(X1) 및 펩타이드 서열(X2)을 입력 데이터로 사용하고, 신생항원 여부와 대응되는 N/Y를 출력 데이터로 출력(return)할 수 있다.
이때, 신생항원 결정 장치(100)는 면역성 예측 모델(M1), 결합성 예측 모델(M2), 및 면역 내성 예측 모델(M3)을 이용하여, 신생항원 여부와 대응되는 N/Y를 출력할 수 있다. 이때, 면역성 예측 모델(M1)을 통해 출력된 제1 예측값, 결합성 예측 모델(M2)을 통해 출력된 제2 예측값, 면역 내성 예측 모델(M3)을 통해 출력된 제3 예측값을 입력으로, 신생항원 여부와 대응되는 N/Y를 출력으로 학습된 모델(NN)을 더 이용하여 신생항원 여부와 대응되는 N/Y를 출력(return)할 수 있다.
제1 예측값 제2 예측값 제3 예측값 출력값
Y Y Y Y
Y N N N
N Y N N
N N N N
상기 표에 도시된 바와 같이 대상 암 조직의 펩타이드 서열 및 HLA 대립유전자 서열 사이에 면역성이 있고 결합성이 없는 경우, 결합성이 있고 면역성이 없는 경우에는 신생항원 여부가 N으로 출력될 수 있다. 대상 암 조직의 펩타이드 서열 및 HLA 대립유전자 서열 사이에 면역성과 결합성이 모두 있는 경우에 신생항원 여부가 Y로 출력될 수 있다.
도 5 내지 도 7은 본 발명의 실시예들에 따른 신생항원 결정 시스템의 구현 예시 들에 대한 도면들이다.
도 5에 도시된 바와 같이, 신생항원 결정 장치(100)는 외부의 전자 장치(200)로부터 암 조직에 대한 유전체 데이터를 수신할 수 있다. 신생항원 결정 장치(100)는 출력된 암 조직의 신생항원인지 여부에 대한 정보를 전자 장치(200)로 전송할 수 있다.
전자 장치(200)는 암 조직에 대한 유전체 데이터를 저장한 하나 이상의 프로세서를 포함하는 컴퓨팅 장치일 수 있다. 전자 장치(200)는 암 조직의 유전체 데이터를 출력하는 장치일 수 있다. 전자 장치(200)는 신생항원 결정 장치(100)와 전기적으로 연결되거나 네트워크를 통해 연결되어 데이터를 송수신할 수 있다.
전자 장치(200)는 수회에 걸쳐서 복수의 샘플들의 암 조직들에 대한 유전체 데이터를 획득하여 저장할 수 있다. 신생항원 결정 장치(100)는 전자 장치(200)로부터 수신된 유전체 데이터들에 대한 신생항원인지 여부 등을 순차적으로 출력할 수 있다.
도 6에 도시된 바와 같이, 신생항원 결정 장치(100)는 복수의 전자 장치들(201, 202, …, 20n)로부터 데이터를 수신하고, 복수의 전자 장치들(201, 202, …, 20n)로 출력 데이터를 전송할 수 있다.
신생항원 결정 장치(100)는 복수의 전자 장치들(201, 202, …, 20n)로부터 유전체 데이터들을 수신할 수 있다. 복수의 전자 장치들(201, 202, …, 20n)는 하나 이상의 주체에 의해 관리될 수 있다.
도 7에 도시된 바와 같이, 신생항원 결정 장치(100)는 하나 이상의 단말 장치들(301, 302, …, 30n)의 출력부를 통해 출력 데이터를 출력시킬 수 있다. 출력 데이터는 신생항원 결정 장치(100)의 출력부를 통해 출력될 수 있다. 출력 데이터는 하나 이상의 단말 장치들(301, 302, …, 30n)의 출력부를 통해 출력될 수 있다. 신생항원 결정 장치(100)는 신생항원과 관련된 데이터를 전송함에 따라 소정의 비용에 대한 결제를 하나 이상의 단말 장치들(301, 302, …, 30n)로 요청할 수 있다. 하나 이상의 단말 장치들(301, 302, …, 30n)은 암 조직에 포함된 펩타이드들, HLA 대립유전자들에 대한 신생항원 관련 정보를 요청할 수 있다. 요청에 대응하여, 출력 데이터가 출력될 수 있다.
도 8은 면역성 예측 모델, 결합성 예측 모델, 면역 내성 예측 모델 등을 학습시키는 학습 서버(10)의 블록도이다.
학습 서버(10)은 데이터 입력부(11), 제1 학습부(12), 제2 학습부(13), 제3 학습부(14), 및 제4 학습부(15)를 포함할 수 있다.
제1 학습부(12)는 면역성 예측 모델을 학습하여 생성하는 것으로, 펩타이드 서열 또는 HLA 대립유전자 서열의 T 세포 활성 데이터 및 펩타이드 서열의 면역성을 훈련 데이터 세트로 학습하게 된다. 제1 학습부(12)에 의해 학습된 면역성 예측 모델은 도 10의 12'에 도시된 바와 같이, 펩타이드 서열을 워드 임베딩 기법으로 처리하고, 처리된 펩타이드 서열을 CNN, GRU, NN의 레이어에 입력하여 학습하게 된다.
제2 학습부(13)는 결합성 예측 모델을 학습하여 생성하는 것으로, 펩타이드 서열의 결합 데이터 또는 HLA 대립유전자 서열을 입력으로 펩타이드 서열 및 HLA 대립유전자 서열 사이의 결합성을 훈련 데이터 세트로 학습하게 된다. 제2 학습부(13)에 의해 학습된 결합성 예측 모델은 도 9의 13'에 도시된 바와 같이, 펩타이드 서열 및 HLA 대립유전자 서열을 각각 워드 임베딩 기법으로 처리하고, 처리된 펩타이드 서열을 CNN, GRU의 레이어에 입력하여 학습하고 HLA 대립유전자 서열을 CNN, CNN. GRU의 레이어에 입력하여 학습하게 된다. 결합성 예측 모델은 펩타이드 서열에 대한 결합성에 대한 예측값과 HLA 대립유전자 서열에 대한 결합성에 대한 예측값으로 또 다른 모델(NN1)을 학습시켜, 최종적으로 대상 암 조직에 대한 면역 내성에 대한 예측값을 출력하도록 학습될 수 있다.
제3 학습부(14)는 면역 내성 예측 모델을 학습하여 생성하는 것으로, 펩타이드 서열 및 HLA 대립유전자 서열을 입력으로 펩타이드 서열 및 HLA 대립유전자 서열 사이의 면역 내성을 훈련 데이터 세트로 학습하게 된다. 제3 학습부(14)에 의해 학습된 면역 내성 예측 모델은 도 10의 14'에 도시된 바와 같이, 펩타이드 서열 및 HLA 대립유전자 서열을 각각 워드 임베딩 기법으로 처리하고, 처리된 펩타이드 서열을 CNN, GRU의 레이어에 입력하여 학습하고 HLA 대립유전자 서열을 CNN, CNN, GRU의 레이어에 입력하여 학습하게 된다. 면역 내성 예측 모델은 펩타이드 서열에 대한 면역 내성에 대한 예측값과 HLA 대립유전자 서열에 대한 면역 내성에 대한 예측값으로 또 다른 모델(NN2)을 학습시켜, 최종적으로 대상 암 조직에 대한 면역 내성에 대한 예측값을 출력하도록 학습될 수 있다.
학습 서버(10)는 제1 내지 제3 학습부(12, 13, 14)에 의해 생성된 학습 모델들을 신생항원 결정 장치(100)로 전송할 수 있다. 이를 통해, 신생항원 결정 장치(100)의 면역성 예측부(121), 결합성 예측부(122), 면역내성 예측부(123)의 알고리즘이 주기적으로 갱신(update 업데이트) 될 수 있다. 이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (12)

  1. 대상 암 조직으로부터 추출된 펩타이드 서열과 HLA 대립유전자 서열을 입력으로 수신하는 단계;
    상기 펩타이드 서열로부터 T 세포 활성 데이터를 획득하고, 상기 T 세포 활성 데이터를 면역성 예측 모델에 입력하여, 상기 펩타이드 서열의 면역성을 예측하는 제1 예측값을 출력하는 단계;
    상기 HLA 대립유전자 서열로부터 결합 데이터를 획득하고, 상기 결합 데이터를 결합성 예측 모델에 입력하여 상기 펩타이드 서열 및 상기 HLA 대립유전자 서열의 결합성을 예측하는 제2 예측값을 출력하는 단계;
    면역 내성 예측 모델에 상기 T 세포 활성 데이터 및 상기 결합 데이터를 입력하여, 상기 대상 암 조직의 면역 내성을 예측하는 제3 예측값을 출력하는 단계; 및
    상기 T 세포 활성 데이터 및 상기 제1 내지 제3 예측값을 이용하여 상기 대상 세포에 대한 신생항원 정보를 생성하는 단계를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
  2. 제1항에 있어서,
    상기 면역성 예측 모델, 상기 결합성 예측 모델, 및 상기 면역 내성 예측 모델 중 적어도 하나는
    복수의 대상 암 조직들에 존재하는 펩타이드 서열 및 HLA 대립유전자 서열을 포함하는 훈련 데이터 세트를 기반으로 기계학습 알고리즘에 의해 훈련되는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
  3. 제2항에 있어서,
    상기 대상 암 조직은
    단일 MHC 부류 I 또는 부류 II 대립 유전자를 발현하도록 조작된 세포를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
  4. 제2항에 있어서,
    상기 대상 암 조직은
    복수의 환자로부터 수득되거나 이로부터 유래된 인간 세포를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
  5. 제2항에 있어서,
    상기 대상 암 조직은
    복수의 환자로부터 수득된 신선한 또는 냉동된 종양 세포를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
  6. 제2항에 있어서,
    상기 대상 암 조직은
    복수의 환자로부터 수득된 신선한 또는 냉동된 조직 세포를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
  7. 제2항에 있어서,
    상기 대상 암 조직은
    T- 세포 분석을 사용하여 확인된 펩타이드를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
  8. 제2항에 있어서,
    상기 훈련 데이터 세트는
    상기 대상 암 조직과 관련된 단백체 서열과 관련된 데이터, 상기 대상 암 조직과 관련된 MHC 펩타이드 서열과 관련된 데이터, 상기 대상 암 조직과 관련된 펩타이드와 HLA 대립 유전자 간의 결합 데이터, 상기 대상 암 조직과 관련된 전사체와 관련된 데이터, 상기 대상 암 조직과 관련된 게놈과 관련된 데이터 중 적어도 하나를 포함하는, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
  9. 제1항에 있어서,
    상기 면역성 예측 모델은
    펩타이드 서열로부터의 T 세포 활성 데이터를 입력으로, 상기 펩타이드 서열의 면역성을 출력으로 학습된 모델인, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
  10. 제1항에 있어서,
    상기 결합성 예측 모델은
    HLA 대립유전자 서열 및 펩타이드 서열로부터의 결합 데이터를 입력으로, 상기 펩타이드 서열 및 상기 HLA 대립유전자 서열의 결합성을 출력으로 학습된 모델인, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
  11. 제1항에 있어서,
    상기 면역 내성 예측 모델은
    펩타이드 서열 및 HLA 대립유전자 서열로부터의 T 세포 활성 데이터 및 HLA 대립유전자 서열 및 펩타이드 서열로부터의 결합 데이터를 입력으로, 펩타이드 서열 및 HLA 대립유전자 서열 사이의 면역 내성을 출력으로 학습된 모델인, 펩타이드 서열 및 HLA 대립유전자 서열을 이용하여 신생항원을 예측하는 방법.
  12. 컴퓨터를 이용하여 제1항 내지 제11항 중 어느 한 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.
KR1020200035815A 2020-03-24 2020-03-24 펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램 KR102159921B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020200035815A KR102159921B1 (ko) 2020-03-24 2020-03-24 펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램
PCT/KR2020/019017 WO2021194057A1 (ko) 2020-03-24 2020-12-23 펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램
US17/909,866 US20240203522A1 (en) 2020-03-24 2020-12-23 Method and computer program for predicting neoantigen by using peptide sequence and hla allele sequence
EP20926771.5A EP4131275A4 (en) 2020-03-24 2020-12-23 METHOD AND COMPUTER PROGRAM FOR PREDICTING A NEOANTIGEN USING A PEPTIDE SEQUENCE AND AN HLA ALLELE SEQUENCE
JP2022555140A JP2023518725A (ja) 2020-03-24 2020-12-23 ペプチド及びhla対立遺伝子配列を用いて新生抗原を予測する方法及びコンピュータプログラム
CN202080098581.0A CN115298739A (zh) 2020-03-24 2020-12-23 利用肽序列及hla等位基因序列来预测新生抗原的方法及计算机程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200035815A KR102159921B1 (ko) 2020-03-24 2020-03-24 펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
KR102159921B1 true KR102159921B1 (ko) 2020-09-25

Family

ID=72707644

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200035815A KR102159921B1 (ko) 2020-03-24 2020-03-24 펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램

Country Status (6)

Country Link
US (1) US20240203522A1 (ko)
EP (1) EP4131275A4 (ko)
JP (1) JP2023518725A (ko)
KR (1) KR102159921B1 (ko)
CN (1) CN115298739A (ko)
WO (1) WO2021194057A1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908421A (zh) * 2021-03-22 2021-06-04 普瑞基准生物医药(苏州)有限公司 肿瘤新生抗原预测方法、装置、设备及介质
WO2021194057A1 (ko) * 2020-03-24 2021-09-30 주식회사 테라젠바이오 펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램
KR102507111B1 (ko) * 2022-03-29 2023-03-07 주식회사 네오젠티씨 데이터베이스에 저장된 면역 펩티돔 정보의 신뢰도를 결정하기 위한 방법 및 장치
KR102517006B1 (ko) * 2022-07-07 2023-04-03 주식회사 네오젠티씨 펩타이드 시퀀스들을 클러스터링하기 위한 방법 및 장치
CN117711525A (zh) * 2024-02-05 2024-03-15 北京悦康科创医药科技股份有限公司 活性预测模型训练及活性预测相关产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200087143A (ko) * 2017-10-10 2020-07-20 그릿스톤 온콜로지, 인코포레이티드 핫스팟을 이용한 신생항원 동정

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180129899A (ko) * 2016-03-31 2018-12-05 네온 테라퓨틱스, 인크. 신생항원 및 이것의 사용 방법
SG11201907402SA (en) * 2017-03-03 2019-09-27 Treos Bio Zrt Population-based immunogenic peptide identification platform
KR102159921B1 (ko) * 2020-03-24 2020-09-25 주식회사 테라젠바이오 펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200087143A (ko) * 2017-10-10 2020-07-20 그릿스톤 온콜로지, 인코포레이티드 핫스팟을 이용한 신생항원 동정

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
M. Richters 외, "Best practices for bioinformatic characterization of neoantigens for clinical utility", Genome Medicine 11:56, 2019.. *
T. Riley 외, "Structural based Prediction of Neoantigen Immunogenicity", Frontiers in Immunology, 10권, 2019.08. *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021194057A1 (ko) * 2020-03-24 2021-09-30 주식회사 테라젠바이오 펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램
CN112908421A (zh) * 2021-03-22 2021-06-04 普瑞基准生物医药(苏州)有限公司 肿瘤新生抗原预测方法、装置、设备及介质
CN112908421B (zh) * 2021-03-22 2024-02-06 普瑞基准生物医药(苏州)有限公司 肿瘤新生抗原预测方法、装置、设备及介质
KR102507111B1 (ko) * 2022-03-29 2023-03-07 주식회사 네오젠티씨 데이터베이스에 저장된 면역 펩티돔 정보의 신뢰도를 결정하기 위한 방법 및 장치
KR102517006B1 (ko) * 2022-07-07 2023-04-03 주식회사 네오젠티씨 펩타이드 시퀀스들을 클러스터링하기 위한 방법 및 장치
CN117711525A (zh) * 2024-02-05 2024-03-15 北京悦康科创医药科技股份有限公司 活性预测模型训练及活性预测相关产品
CN117711525B (zh) * 2024-02-05 2024-05-10 北京悦康科创医药科技股份有限公司 活性预测模型训练及活性预测相关产品

Also Published As

Publication number Publication date
WO2021194057A1 (ko) 2021-09-30
CN115298739A (zh) 2022-11-04
US20240203522A1 (en) 2024-06-20
EP4131275A1 (en) 2023-02-08
JP2023518725A (ja) 2023-05-08
EP4131275A4 (en) 2023-09-13

Similar Documents

Publication Publication Date Title
KR102159921B1 (ko) 펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램
KR102278727B1 (ko) 대상 암 조직 및 세포 유리형 dna 유래 펩타이드 서열 및 hla 클래스 ii 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램
JP2020536553A5 (ko)
KR102330099B1 (ko) Hla 클래스 i 또는 ii 대립유전자와 다양한 길이의 펩타이드를 대상으로 신생항원을 예측하는 방법 및 컴퓨터 프로그램
Thireou et al. Bidirectional long short-term memory networks for predicting the subcellular localization of eukaryotic proteins
Patronov et al. Peptide binding prediction for the human class II MHC allele HLA-DP2: a molecular docking approach
BR112019021782A2 (pt) identificação, fabricação e uso de neoantígenos
Paul et al. Evaluating the immunogenicity of protein drugs by applying in vitro MHC binding data and the immune epitope database and analysis resource
CN108601731A (zh) 新抗原的鉴别、制造及使用
Zhang et al. Pred TAP: a system for prediction of peptide binding to the human transporter associated with antigen processing
CN111630602A (zh) 减少新抗原的接合表位呈递
US20230349914A1 (en) Deep learning system for predicting the t cell receptor binding specificity of neoantigens
WO2020132235A1 (en) Methods and systems for the precise identification of immunogenic tumor neoantigens
CN110752041A (zh) 基于二代测序的新生抗原预测方法、装置和存储介质
KR102406699B1 (ko) 인공지능모델기반 분자동역학 빅데이터를 활용한 신생항원 면역치료정보 제공 시스템 및 방법
CN114649054A (zh) 基于深度学习的抗原亲和力预测方法和系统
Wang et al. Temporal transcriptomic analysis using TrendCatcher identifies early and persistent neutrophil activation in severe COVID-19
von Eichborn et al. VaccImm: simulating peptide vaccination in cancer therapy
Bodas-Pinedo et al. Combining different bacteria in vaccine formulations enhances the chance for antiviral cross-reactive immunity: a detailed in silico analysis for influenza A virus
JP2022504635A (ja) ネオ抗原ベースの免疫療法のためのエピトープを標的化する方法およびシステム
Woelke et al. Development of immune-specific interaction potentials and their application in the multi-agent-system VaccImm
CN114882951A (zh) 基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置
KR102227585B1 (ko) 바이러스 치료를 위한 면역원을 예측하는 방법 및 컴퓨터 프로그램
JP2023534220A (ja) 新生抗原の提示尤度を決定するための方法、システム及びコンピュータプログラム製品
Trevizani et al. Deepitope: prediction of HLA-independent T-cell epitopes mediated by MHC class II using a convolutional neural network

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant