KR20220151388A - A system for searching the new peptide - Google Patents

A system for searching the new peptide Download PDF

Info

Publication number
KR20220151388A
KR20220151388A KR1020210058576A KR20210058576A KR20220151388A KR 20220151388 A KR20220151388 A KR 20220151388A KR 1020210058576 A KR1020210058576 A KR 1020210058576A KR 20210058576 A KR20210058576 A KR 20210058576A KR 20220151388 A KR20220151388 A KR 20220151388A
Authority
KR
South Korea
Prior art keywords
peptide
epitope
mhc
new material
training set
Prior art date
Application number
KR1020210058576A
Other languages
Korean (ko)
Inventor
신재민
박혜진
김송미
트란휴비안
김민석
Original Assignee
주식회사 에이조스바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이조스바이오 filed Critical 주식회사 에이조스바이오
Priority to KR1020210058576A priority Critical patent/KR20220151388A/en
Publication of KR20220151388A publication Critical patent/KR20220151388A/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Chemical & Material Sciences (AREA)
  • Library & Information Science (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Peptides Or Proteins (AREA)

Abstract

The present invention relates to a peptide new material search method and system that can precisely predict the immunoactivity of a target peptide sequence by learning the binding possibility of MHC 1 and an epitope peptide by an artificial intelligence deep learning method. The peptide new material search method according to the present invention comprises the steps of: 1) collecting training data using known epitope peptides of MHC 1 as a positive training set and a human-reference protein sequence having immunotolerance as a negative training set; 2) using the training data collected in step 1) to learn whether the training data and MHC 1 are combined using an artificial intelligence deep learning technique, thereby establishing an epitope peptide prediction model; and 3) inputting an epitope candidate peptide into the epitope peptide prediction model established in step 2) to predict whether the epitope candidate peptide and MHC 1 are combined.

Description

펩타이드 신물질 탐색 방법 및 시스템{A SYSTEM FOR SEARCHING THE NEW PEPTIDE}Peptide new material search method and system {A SYSTEM FOR SEARCHING THE NEW PEPTIDE}

본 발명은 펩타이드 신물질 탐색 방법 및 시스템에 관한 것으로서, 보다 상세하게는 MHC 1 과 에피토프 펩타이드의 결합 가능성을 인공지능 딥러닝 학습법으로 학습하여 대상 펩타이드 서열에 대한 면역활성을 정교하게 예측할 수 있는 펩타이드 신물질 탐색 방법 및 시스템에 관한 것이다. The present invention relates to a method and system for searching for a new peptide material, and more particularly, to search for a new peptide material that can precisely predict the immunoactivity of a target peptide sequence by learning the possibility of binding MHC 1 and an epitope peptide with an artificial intelligence deep learning learning method It relates to methods and systems.

MHC 1은 핵이 있는 세포의 세포막에 존재한다. 이들의 목적은 감염된 세포와 건강한 자신의 세포를 구별하는데 있다. 병원체의 펩타이드가 MHC에 결합하여 항원제시세포(Antigen Presenting Cell; APC)의 세포 표면에 제시되면, T세포가 이를 인식하여 활성화되고 면역 반응을 시작하게 된다. MHC 1 is present in the cell membrane of cells with nuclei. Their purpose is to distinguish infected cells from healthy own cells. When a pathogenic peptide binds to MHC and is presented on the cell surface of an Antigen Presenting Cell (APC), T cells recognize it, activate it, and initiate an immune response.

이때 MHC-1에 결합한 상태로 제시되어 B 세포나 T 세포 등에 의해 식별되는 항원의 특정한 부분(주로 8 ~ 10 mer)을 에피토프(Epitope)라 한다. At this time, a specific portion (mainly 8 to 10 mer) of the antigen that is presented in a state bound to MHC-1 and identified by B cells or T cells is called an epitope.

여기서, MHC와 펩타이드 간의 결합이 안정적일수록 면역 반응이 강하게 일어나 효율적으로 병원체를 제거할 수 있다고 알려져 있다. 따라서, 특정 MHC에 안정적으로 결합할 수 있는 병원체의 펩타이드를 결정하는 기술은 상기 병원체가 유발하는 질병의 백신 개발에 유용하게 활용될 수 있다.Here, it is known that the more stable the binding between the MHC and the peptide, the stronger the immune response to efficiently remove the pathogen. Therefore, a technique for determining peptides of pathogens that can stably bind to a specific MHC can be usefully utilized in the development of vaccines for diseases caused by the pathogens.

그러나, MHC 유전자는 사람이 가지고 있는 유전자 중에서 가장 심한 다형성(polymorphism)을 보이는 유전자로 다양한 병원체에 대한 면역 반응을 유도할 수 있도록 다수의 대립유전자(allele)가 존재한다. 이와 같은 MHC의 다형성으로 인해, 다양한 펩타이드 중 T 세포 에피토프(epitope)가 될 수 있는 펩타이드를 직접 실험하여 결정하는 것은 매우 비효율적이고 많은 시간이 소요되는 문제점이 있다.However, the MHC gene is a gene that shows the most severe polymorphism among genes possessed by humans, and a number of alleles exist to induce immune responses against various pathogens. Due to such polymorphism of MHC, it is very inefficient and time-consuming to directly test and determine a peptide that can be a T cell epitope among various peptides.

본 발명이 해결하고자 하는 기술적 과제는 MHC 1 과 에피토프 펩타이드의 결합 가능성을 인공지능 딥러닝 학습법으로 학습하여 대상 펩타이드 서열에 대한 면역활성을 정교하고 신속하게 예측할 수 있는 펩타이드 신물질 탐색 방법 및 시스템을 제공하는 것이다. The technical problem to be solved by the present invention is to learn the binding possibility of MHC 1 and epitope peptides with an artificial intelligence deep learning learning method to precisely and quickly predict the immune activity for a target peptide sequence. To provide a new peptide discovery method and system will be.

전술한 기술적 과제를 해결하기 위한 본 발명에 따른 펩타이드 신물질 탐색 방법은, 1) MHC 1의 알려진 에피토프(epitope) 펩타이드들을 포지티브 훈련 세트로, 면역 관용이 있는 휴먼 레퍼런스(Hunan-Reference) 단백질 서열을 네거티브 훈련 세트로 하여 훈련 데이터를 수집하는 단계; 2) 상기 1) 단계에서 수집된 훈련 데이터를 사용하여 인공지능 딥러닝 기법으로 훈련 데이터와 MHC 1의 결합 여부를 학습시켜 에피토프 펩타이드 예측 모델을 확립하는 단계; 3) 에피토프 후보 펩타이드를 상기 2) 단계에서 확립된 에피토프 펩타이드 예측 모델 모델에 입력하여 상기 에피토프 후보 펩타이드와 MHC 1의 결합 여부를 예측하는 단계;를 포함한다. The peptide new material search method according to the present invention to solve the above-mentioned technical problem is: 1) known epitope peptides of MHC 1 are used as a positive training set, and immunotolerant human reference (Hunan-Reference) protein sequences are used as negative collecting training data as a training set; 2) establishing an epitope peptide prediction model by learning whether the training data and MHC 1 are combined with artificial intelligence deep learning using the training data collected in step 1); 3) inputting the epitope candidate peptide into the epitope peptide prediction model established in step 2) to predict whether the epitope candidate peptide binds to MHC 1;

그리고 본 발명에서 상기 포지티브 훈련 세트는 IEDB(IMMUNE EPITOPE DATABASE AND ANALYSYS RESOURCE)에서 얻어지는 것이 바람직하다. And, in the present invention, the positive training set is preferably obtained from IEDB (IMMUNE EPITOPE DATABASE AND ANALYSYS RESOURCE).

그리고 본 발명에서 상기 네거티브 훈련 세트는, 휴먼 레퍼런스 단백질 서열 중 무작위로 서열을 추출한 후, 상기 포지티브 훈련 세트와 상동성이 적은 서열을 선택하여 얻어지는 것이 바람직하다. In the present invention, the negative training set is preferably obtained by randomly extracting sequences from human reference protein sequences and then selecting sequences having little homology with the positive training set.

또한 본 발명에 따른 펩타이드 신물질 탐색 방법에서는, 추출된 휴먼 레퍼런스 단백질 서열과 포지티브 훈련 세트와의 상동성은 blastp를 이용하여 분석하는 것이 바람직하다.In addition, in the peptide new material search method according to the present invention, it is preferable to analyze the homology between the extracted human reference protein sequence and the positive training set using blastp.

또한 본 발명에서 상기 에피토프 펩타이드 예측 모델은 상기 에피토프 펩타이드 예측 모델은, 합성곱신경망(CNN : Convolution Neural Network)과 순환신경망(RNN : Recurrent Neural Network)의 일종인 장단기 메모리 신경망(LTSM : Long Short-Term Memory models)을 혼합하여 사용하는 것이 바람직하다.In addition, in the present invention, the epitope peptide prediction model is a long short-term memory neural network (LTSM), which is a type of convolution neural network (CNN) and recurrent neural network (RNN). It is desirable to use a mixture of memory models).

또한 본 발명에서 상기 에피토프 펩타이드 예측 모델은, 6가지 예측 모델을 만들어 각 모델이 예측한 에피토프일 확률들의 평균값을 적용하는 것이 바람직하다.In addition, in the present invention, it is preferable to apply the average value of probabilities of the epitope peptide predicted by each model by making 6 prediction models.

또한 본 발명에서 상기 6가지 예측 모델은, 2개의 CNN 모델, 3개의 LSTM 모델, 1개의 CNN+LSTM 혼합 모델이 바람직하다. In addition, in the present invention, the six prediction models are preferably two CNN models, three LSTM models, and one CNN+LSTM mixed model.

한편 본 발명은 전술한 펩타이드 신물질 탐색 방법으로 에피토프 후보 펩타이드와 MHC 1의 결합 여부를 예측하는 것을 특징으로 하는 펩타이드 신물질 탐색 시스템도 제공한다. On the other hand, the present invention also provides a peptide new material search system characterized by predicting whether or not the binding of an epitope candidate peptide and MHC 1 is performed by the above-described peptide new material search method.

본 발명의 펩타이드 신물질 탐색 방법에 따르면 MHC 1 과 에피토프 펩타이드의 결합 가능성을 인공지능 딥러닝 학습법으로 학습하여 대상 펩타이드 서열에 대한 면역활성을 기존의 Mass/Binding-펩타이드 항원 탐색 방식에 비하여 훨씬 신속하고 정교하게 예측할 수 있는 장점이 있다. According to the peptide new material search method of the present invention, the possibility of binding MHC 1 and epitope peptides is learned by artificial intelligence deep learning learning method, and the immune activity to the target peptide sequence is much faster and more sophisticated than the existing mass/binding-peptide antigen search method. It has the advantage of being predictable.

한편 본 발명의 펩타이드 신물질 탐색 시스템은 범용적이어서 신생항원(negantigen)이나 여러 바이러스에 적용이 가능한 장점이 있다. 이에 대한 실시예로 상기 에피토프 후보 펩타이드를 혈액암 관련 단백질이나 Covid 19 바이러스에서 추출할 경우, 혈액암 유래 항원이나 Covid 19 바이러스 유래 항원을 얻을 수 있다. On the other hand, the peptide new material search system of the present invention is universal and has the advantage of being applicable to neoantigens or various viruses. As an example of this, when the epitope candidate peptide is extracted from blood malignancy-related proteins or the Covid-19 virus, blood malignancy-derived antigens or Covid-19 virus-derived antigens can be obtained.

도 1은 본 발명의 일 실시예에 따른 펩타이드 신물질 탐색 방법의 공정도이다.
도 2는 본 발명의 일 실시예에 따른 훈련 데이터 수집 단계의 공정도이다.
도 3은 본 발명의 일 실시예에 따른 훈련 데이터 수집 단계의 진행 사항을 요약한 다이어그램이다.
도 4는 본 발명의 일 실시예에 따른 에피토프 후보 펩타이드와 MHC 1의 결합여부를 예측하는 단계의 진행 사항을 요약한 다이어그램이다.
도 5는 본 발명의 일 실시예에 따른 펩타이드 신물질 탐색 방법에 의한 면역항암제 개발 과정을 도시하는 도표이다.
1 is a process chart of a new peptide discovery method according to an embodiment of the present invention.
2 is a process diagram of a training data collection step according to an embodiment of the present invention.
3 is a diagram summarizing the progress of the training data collection step according to an embodiment of the present invention.
4 is a diagram summarizing the progress of the step of predicting the binding of MHC 1 with an epitope candidate peptide according to an embodiment of the present invention.
Figure 5 is a diagram showing the immuno-anticancer agent development process by the peptide new material search method according to an embodiment of the present invention.

이하에서는 첨부된 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. Hereinafter, specific embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 실시예에 따른 펩타이드 신물질 탐색 방법은 도 1에 도시된 바와 같이, 훈련 데이터 수집 단계(S100)로 시작된다. 이 단계(S100)에서는 에피토프 펩타이드 예측 모델의 학습에 사용되는 훈련 데이터를 수집하게 되며, 포지티브 훈련 세트와 네거티브 훈련 세트를 각각 준비한다. As shown in FIG. 1, the peptide new material search method according to this embodiment starts with the training data collection step (S100). In this step (S100), training data used for learning the epitope peptide prediction model is collected, and a positive training set and a negative training set are prepared respectively.

본 실시예에서 이 단계(S100)는 구체적으로 도 2에 도시된 바와 같이, 소 단계들로 나뉘어 진행되는 것이 바람직하다. 먼저 포지티브 훈련 세트를 준비하는 단계(S110)가 진행된다. 여기에서 '포지티브 훈련 세트'라 함은 MHC 1과 결합하는 에피토프 펩타이드(Epitope peptide)를 말하는 것으로서, 본 실시예에서는 상기 포지티브 훈련 세트를 IEDB(IMMUNE EPITOPE DATABASE AND ANALYSYS RESOURCE)에서 MHC class 1 epitope으로 알려진 데이터를 취한다. In this embodiment, this step (S100) is preferably divided into sub-steps as shown in FIG. 2 in detail. First, a step of preparing a positive training set (S110) is performed. Here, the 'positive training set' refers to an epitope peptide that binds to MHC 1, and in this embodiment, the positive training set is known as an MHC class 1 epitope in IEDB (IMMUNE EPITOPE DATABASE AND ANALYSYS RESOURCE) take the data

다음으로는 네거티브 훈련 세트를 수집하기 위한 소단계들이 진행되는데, 먼저 도 2에 도시된 바와 같이, 휴먼 레퍼런스 단백질을 추출하는 단계(S120)가 진행된다. 여기에서 '네거티브 훈련 세트'라 함은 MHC 1과 결합하지 않아서 MHC class 1 에피토프으로 기능하지 않는 단백질 서열을 말하는 것이며, 이 단계(S120)에서는 도 3에 도시된 바와 같이, 면역 관용이 있는 휴먼 레퍼런스(Human Reference) 단백질 서열을 무작위로 추출하는 것이다. Next, sub-steps for collecting a negative training set are performed. First, as shown in FIG. 2, a step of extracting a human reference protein (S120) is performed. Here, the 'negative training set' refers to a protein sequence that does not bind to MHC 1 and does not function as an MHC class 1 epitope, and in this step (S120), as shown in FIG. 3, a human reference with immune tolerance (Human Reference) is to randomly extract protein sequences.

다음으로는 도 2에 도시된 바와 같이, 전 단계(S120)에서 추출된 휴먼 레퍼런스 단백질에 대하여 상기 포지티브 훈련 세트와의 상동성을 분석하는 단계(S130)가 진행된다. 이 단계(S130)에서는 전 단계(S120)에서 무작위로 추출된 휴먼 레퍼런스 단백질 서열들에 대하여 상기 포지티브 훈련 세트로 선정된 데이터들과의 상동성(Similarity)을 분석한다. 이때 상기 휴먼 레퍼런스 단백질과 포지티브 훈련 세트의 상동성 분석은 도 3에 도시된 바와 같이, blastp를 이용하여 분석하는 것이 바람직하다.Next, as shown in FIG. 2 , homology analysis with the positive training set for the human reference protein extracted in the previous step (S120) is performed (S130). In this step (S130), homology with data selected as the positive training set for the human reference protein sequences randomly extracted in the previous step (S120) is analyzed. In this case, the homology analysis between the human reference protein and the positive training set is preferably performed using blastp, as shown in FIG. 3 .

다음으로는 도 2에 도시된 바와 같이, 네거티브 훈련 세트를 선정하는 단계(S140)가 진행된다. 이 단계(S140)에서는 전 단계(S130)에서 상동성 분석이 완료된 상기 휴먼 레퍼런스 단백질 서열들 중에서 포지티브 훈련 세트와의 상동성이 적은 서열을 선택하여 네거티브 훈련 세트를 확정한다. Next, as shown in FIG. 2, a step of selecting a negative training set (S140) proceeds. In this step (S140), a negative training set is determined by selecting sequences having little homology with the positive training set among the human reference protein sequences for which the homology analysis in the previous step (S130) has been completed.

이렇게 휴먼 레퍼런스 단백질을 이용하면 매우 많은 수의 네거티브 훈련 세트를 확보할 수 있어서, 정확한 에피토프 펩타이드 예측 모델을 확립할 수 있는 장점이 있다. Using the human reference protein in this way has the advantage of being able to secure a very large number of negative training sets, thereby establishing an accurate epitope peptide prediction model.

다음으로는 도 1에 도시된 바와 같이, 에피토프 펩타이드 예측 모델을 확립하는 단계(S200)가 진행된다. 즉, 전 단계(S100)에서 수집된 포지티브 훈련 세트와 네거티브 훈련 세트를 포함하는 훈련 데이터를 사용하여 인공지능 딥러닝 기법으로 훈련 데이터와 MHC 1의 결합 여부를 학습시켜 에피토프 펩타이드 예측 모델을 확립하는 것이다. Next, as shown in FIG. 1, a step of establishing an epitope peptide prediction model (S200) proceeds. That is, using the training data including the positive training set and the negative training set collected in the previous step (S100), the AI deep learning technique learns whether the training data and MHC 1 are combined to establish an epitope peptide prediction model. .

본 실시예에서 상기 에피토프 펩타이드 예측 모델은, 순환신경망(RNN : Recurrent Neural Network)과 합성곱신경망(CNN : Convolution Neural Network)을 혼합하여 사용하는 것이 바람직하다. 이때 상기 에피토프 펩타이드 예측 모델을 6가지 조건으로 만들어 각각의 모델이 예측한 에피토프일 확률들을 평균하여 사용하는 것이, 향상된 이진 분류 성능을 얻을 수 있어서 바람직하다. In this embodiment, it is preferable to use a mixture of a Recurrent Neural Network (RNN) and a Convolution Neural Network (CNN) as the epitope peptide prediction model. At this time, it is preferable to make the epitope peptide prediction model under six conditions and average the probabilities of the epitope predicted by each model in order to obtain improved binary classification performance.

여기에서 상기 6가지 예측 모델은, 2개의 CNN 모델, 3개의 LSTM 모델, 1개의 CNN+LSTM 혼합 모델인 것이 바람직하다. Here, the six prediction models are preferably two CNN models, three LSTM models, and one CNN+LSTM mixed model.

다음으로는 도 1에 도시된 바와 같이, 전 단계(S200)에서 확립된 상기 에피토프 펩타이드 예측 모델을 활용하여 실제 에피토프 후보 펩타이드와 MHC 1의 결합여부를 예측하는 단계(S300)가 진행된다. 즉, 이 단계(S300)를 거쳐서 에피토프 후보 펩타이드와 MHC 1의 결합이 예측되면 해당 에피토프 후보 펩타이드는 후보 항원 펩타이드가 되는 것이다. Next, as shown in FIG. 1, a step (S300) of predicting binding between an actual epitope candidate peptide and MHC 1 using the epitope peptide prediction model established in the previous step (S200) is performed. That is, if the binding between the epitope candidate peptide and MHC 1 is predicted through this step (S300), the corresponding epitope candidate peptide becomes a candidate antigen peptide.

따라서 이 단계(S300)에서는 도 4에 도시된 바와 같이, 에피토프 후보 펩타이드를 전 단계(S200)에서 확립된 에피토프 펩타이드 예측 모델 모델에 입력하여 상기 에피토프 후보 펩타이드와 MHC 1의 결합 여부를 예측한다. 이에 대한 실시예로 에피토프 후보 펩타이드를 혈액암 관련 단백질이나 Covid 19 바이러스에서 추출할 경우, 혈액암 유래 항원이나 Covid 19 바이러스 유래 항원을 얻을 수 있다. Therefore, in this step (S300), as shown in FIG. 4, the epitope candidate peptide is input into the epitope peptide prediction model established in the previous step (S200) to predict whether the epitope candidate peptide binds to MHC 1. As an example of this, when an epitope candidate peptide is extracted from a blood malignancy-related protein or a Covid-19 virus, a blood malignancy-derived antigen or a Covid-19 virus-derived antigen can be obtained.

본 실시예에 따른 펩타이드 신물질 탐색 시스템을 이용하여 도 5에 도시된 바와 같이, 약 2주일 내에 52개의 후보 항원 펩타이드를 선정할 수 있었다. 이렇게 선정된 후보 항원 펩타이드들은 실제 MHC 1 과의 결합 효능을 약 2개월에 걸쳐서 확인하였으며, 그 결과 도 5에 도시된 바와 같이, 52개의 후보 항원 펩타이드 중 37개의 후보 항원 펩타이드가 MHC 1과의 결합 효능이 있는 것을 확인할 수 있다. As shown in FIG. 5, using the peptide new material search system according to this example, 52 candidate antigenic peptides could be selected within about 2 weeks. The candidate antigen peptides selected in this way actually confirmed the binding efficacy with MHC 1 over about 2 months, and as a result, as shown in FIG. 5, 37 of the 52 candidate antigen peptides showed binding to MHC 1 You can confirm that it works.

이렇게 결합 효능이 확인된 후보 항원 펩타이드들 중 결합 활성이 높은 항원 펩타이드들에 대해서는 도 5에 도시된 바와 같이, 약 3개월간 T-세포 활성 효능을 확인하는 절차를 거쳐서 최종 펩타이드를 선정하게 된다. Among the candidate antigen peptides whose binding efficacy has been confirmed, antigen peptides with high binding activity are selected through a procedure for confirming the T-cell activation efficacy for about 3 months, as shown in FIG. 5 , to select the final peptide.

Claims (8)

1) MHC 1의 알려진 에피토프(epitope) 펩타이드들을 포지티브 훈련 세트로, 면역 관용이 있는 휴먼 레퍼런스(Hunan-Reference) 단백질 서열을 네거티브 훈련 세트로 하여 훈련 데이터를 수집하는 단계;
2) 상기 1) 단계에서 수집된 훈련 데이터를 사용하여 인공지능 딥러닝 기법으로 훈련 데이터와 MHC 1의 결합 여부를 학습시켜 에피토프 펩타이드 예측 모델을 확립하는 단계;
3) 에피토프 후보 펩타이드를 상기 2) 단계에서 확립된 에피토프 펩타이드 예측 모델 모델에 입력하여 상기 에피토프 후보 펩타이드와 MHC 1의 결합 여부를 예측하는 단계;를 포함하는 펩타이드 신물질 탐색 방법.
1) collecting training data using known epitope peptides of MHC 1 as a positive training set and immune-tolerant human reference protein sequences as a negative training set;
2) establishing an epitope peptide prediction model by learning whether the training data and MHC 1 are combined with artificial intelligence deep learning using the training data collected in step 1);
3) inputting the epitope candidate peptide into the epitope peptide prediction model established in step 2) to predict whether the epitope candidate peptide binds to MHC 1;
제1항에 있어서, 상기 포지티브 훈련 세트는,
IEDB(IMMUNE EPITOPE DATABASE AND ANALYSYS RESOURCE)에서 얻어지는 것을 특징으로 하는 펩타이드 신물질 탐색 방법.
The method of claim 1, wherein the positive training set,
Peptide new material search method, characterized in that obtained from IEDB (IMMUNE EPITOPE DATABASE AND ANALYSYS RESOURCE).
제2항에 있어서, 상기 네거티브 훈련 세트는,
휴먼 레퍼런스 단백질 서열 중 무작위로 서열을 추출한 후, 상기 포지티브 훈련 세트와 상동성이 적은 서열을 선택하여 얻어지는 것을 특징으로 하는 펩타이드 신물질 탐색 방법.
The method of claim 2, wherein the negative training set,
A peptide new material search method, characterized in that obtained by randomly extracting sequences from human reference protein sequences and selecting sequences having little homology with the positive training set.
제3항에 있어서,
추출된 휴먼 레퍼런스 단백질 서열과 포지티브 훈련 세트와의 상동성은 blastp를 이용하여 분석하는 것을 특징으로 하는 펩타이드 신물질 탐색 방법.
According to claim 3,
A peptide new material search method, characterized in that the homology between the extracted human reference protein sequence and the positive training set is analyzed using blastp.
제1항에 있어서, 상기 에피토프 펩타이드 예측 모델은,
합성곱신경망(CNN : Convolution Neural Network)과 순환신경망(RNN : Recurrent Neural Network)의 일종인 장단기 메모리 신경망(LTSM : Long Short-Term Memory models)을 혼합하여 사용하는 것을 특징으로 하는 펩타이드 신물질 탐색 방법.
The method of claim 1, wherein the epitope peptide prediction model,
Peptide new material search method characterized by using a mixture of long short-term memory models (LTSM), which is a type of convolution neural network (CNN) and recurrent neural network (RNN).
제5항에 있어서, 상기 에피토프 펩타이드 예측 모델은,
6가지 예측 모델을 만들어 각 모델이 예측한 에피토프일 확률들의 평균값을 적용하는 것을 특징으로 하는 펩타이드 신물질 탐색 방법.
The method of claim 5, wherein the epitope peptide prediction model,
A peptide new material search method characterized by applying the average value of the probabilities of epitopes predicted by each model by creating six prediction models.
제6항에 있어서, 상기 6가지 예측 모델은,
2개의 CNN 모델, 3개의 LSTM 모델, 1개의 CNN+LSTM 혼합 모델인 것을 특징으로 하는 펩타이드 신물질 탐색 방법.
The method of claim 6, wherein the six predictive models,
Peptide new material search method, characterized in that 2 CNN models, 3 LSTM models, 1 CNN + LSTM mixed model.
제1항 내지 제7항 중 어느 한 항에 의한 방법으로 에피토프 후보 펩타이드와 MHC 1의 결합 여부를 예측하는 것을 특징으로 하는 펩타이드 신물질 탐색 시스템. A peptide new material search system characterized by predicting whether or not the binding of an epitope candidate peptide and MHC 1 is performed by the method according to any one of claims 1 to 7.
KR1020210058576A 2021-05-06 2021-05-06 A system for searching the new peptide KR20220151388A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210058576A KR20220151388A (en) 2021-05-06 2021-05-06 A system for searching the new peptide

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210058576A KR20220151388A (en) 2021-05-06 2021-05-06 A system for searching the new peptide

Publications (1)

Publication Number Publication Date
KR20220151388A true KR20220151388A (en) 2022-11-15

Family

ID=84042104

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210058576A KR20220151388A (en) 2021-05-06 2021-05-06 A system for searching the new peptide

Country Status (1)

Country Link
KR (1) KR20220151388A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705141A (en) * 2022-12-15 2023-09-05 西北大学 Method for screening Alzheimer disease prevention peptide from walnut enzymolysis product based on CNN-LSTM neural network
CN117457079A (en) * 2023-11-21 2024-01-26 四川大学 MHC prediction model construction method and system based on degeneracy coding and deep learning

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705141A (en) * 2022-12-15 2023-09-05 西北大学 Method for screening Alzheimer disease prevention peptide from walnut enzymolysis product based on CNN-LSTM neural network
CN116705141B (en) * 2022-12-15 2024-01-09 西北大学 Method for screening Alzheimer disease prevention peptide from walnut enzymolysis product based on CNN-LSTM neural network
CN117457079A (en) * 2023-11-21 2024-01-26 四川大学 MHC prediction model construction method and system based on degeneracy coding and deep learning

Similar Documents

Publication Publication Date Title
Jurtz et al. NetTCR: sequence-based prediction of TCR binding to peptide-MHC complexes using convolutional neural networks
CN113160887B (en) Screening method of tumor neoantigen fused with single cell TCR sequencing data
Nielsen et al. NetMHCpan-3.0; improved prediction of binding to MHC class I molecules integrating information from multiple receptor and peptide length datasets
KR20220151388A (en) A system for searching the new peptide
Afik et al. Targeted reconstruction of T cell receptor sequence from single cell RNA-seq links CDR3 length to T cell differentiation state
Scheuch et al. RIEMS: a software pipeline for sensitive and comprehensive taxonomic classification of reads from metagenomics datasets
Brown et al. Augmenting adaptive immunity: progress and challenges in the quantitative engineering and analysis of adaptive immune receptor repertoires
Kim et al. Applications for T-cell epitope queries and tools in the Immune Epitope Database and Analysis Resource
CN110109543B (en) c-VEP identification method based on tested migration
US20240161871A1 (en) Method and system for optimal vaccine design
WO2024007700A1 (en) Antigen prediction method, apparatuses, device, and storage medium
CN110083531A (en) It improves the shared multi-goal path coverage test method of individual information and realizes system
JP2022532707A (en) Methods and systems for protein engineering and protein production
Grandi Bacterial surface proteins and vaccines
CN114333984A (en) Intelligent prediction method for small molecule-protein binding affinity
Domina et al. Rapid profiling of the antigen regions recognized by serum antibodies using massively parallel sequencing of antigen-specific libraries
Barbosa et al. Value of a newly sequenced bacterial genome
Frisby et al. Identifying promising sequences for protein engineering using a deep transformer protein language model
De Groot et al. From immunome to vaccine: epitope mapping and vaccine design tools
CN117577180A (en) Device and method for identifying non-classical tumor neoantigen based on multiple sets of chemical data
Gallo Revolutionizing Synthetic Antibody Design: Harnessing Artificial Intelligence and Deep Sequencing Big Data for Unprecedented Advances
Panda et al. Stackelberg Games for Vaccine Design.
CN113658633A (en) Method, device, equipment and storage medium for predicting phage host genus
Lexa et al. TE-nester: a recursive software tool for structure-based discovery of nested transposable elements
CN116994654B (en) Method, apparatus and storage medium for identifying MHC-I/HLA-I binding and TCR recognition peptides

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application