KR102645477B1 - Prediction method of immunogenic determinant and immunogen binding site - Google Patents
Prediction method of immunogenic determinant and immunogen binding site Download PDFInfo
- Publication number
- KR102645477B1 KR102645477B1 KR1020230023506A KR20230023506A KR102645477B1 KR 102645477 B1 KR102645477 B1 KR 102645477B1 KR 1020230023506 A KR1020230023506 A KR 1020230023506A KR 20230023506 A KR20230023506 A KR 20230023506A KR 102645477 B1 KR102645477 B1 KR 102645477B1
- Authority
- KR
- South Korea
- Prior art keywords
- immunogen
- protein
- immune
- learning
- binding site
- Prior art date
Links
- 230000002163 immunogen Effects 0.000 title claims abstract description 263
- 238000000034 method Methods 0.000 title claims abstract description 122
- 230000027455 binding Effects 0.000 title claims abstract description 100
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 129
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 129
- 230000028993 immune response Effects 0.000 claims abstract description 29
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 58
- 229920001184 polypeptide Polymers 0.000 claims description 57
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 57
- 238000013528 artificial neural network Methods 0.000 claims description 54
- 102000036639 antigens Human genes 0.000 claims description 38
- 108091007433 antigens Proteins 0.000 claims description 38
- 239000000427 antigen Substances 0.000 claims description 30
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 28
- 210000002865 immune cell Anatomy 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 230000002457 bidirectional effect Effects 0.000 claims description 13
- 230000000873 masking effect Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 8
- 108010032595 Antibody Binding Sites Proteins 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 claims description 2
- 239000013078 crystal Substances 0.000 claims 1
- 230000000052 comparative effect Effects 0.000 description 52
- 230000000890 antigenic effect Effects 0.000 description 24
- 230000008569 process Effects 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 4
- 238000003032 molecular docking Methods 0.000 description 4
- 102000039446 nucleic acids Human genes 0.000 description 4
- 108020004707 nucleic acids Proteins 0.000 description 4
- 150000007523 nucleic acids Chemical class 0.000 description 4
- 238000011282 treatment Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000000987 immune system Anatomy 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 125000000539 amino acid group Chemical group 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 230000002458 infectious effect Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 244000052769 pathogen Species 0.000 description 2
- 230000004850 protein–protein interaction Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 229940124597 therapeutic agent Drugs 0.000 description 2
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009870 specific binding Effects 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Peptides Or Proteins (AREA)
Abstract
본 발명은 면역 반응을 일으키는 단백질 또는 세포에서 면역원 결정부 및/또는 이와 특이적으로 결합하는 면역원 결합부를 보다 신뢰성 있게 예측할 수 있는 면역원 결정부의 예측 방법 및 면역원 결합부의 예측 방법에 관한 것이다. The present invention relates to a method for predicting an immunogen-determining portion and a method for predicting an immunogen-binding portion that can more reliably predict an immunogen-determining portion and/or an immunogen-binding portion that specifically binds thereto in a protein or cell that causes an immune response.
Description
본 발명은 면역 반응을 일으키는 단백질 또는 세포에서 면역원 결정부 및/또는 이와 특이적으로 결합하는 면역원 결합부를 보다 신뢰성 있게 예측할 수 있는 면역원 결정부의 예측 방법 및 면역원 결합부의 예측 방법에 관한 것이다.The present invention relates to a method for predicting an immunogen-determining portion and a method for predicting an immunogen-binding portion that can more reliably predict an immunogen-determining portion and/or an immunogen-binding portion that specifically binds thereto in a protein or cell that causes an immune response.
면역계(immune system)는 생체 내에서 감염성 병원체 또는 유해 단백질 등을 방어하고 중화하는 방어 시스템을 지칭하며, 면역 반응은 항체 등 면역 단백질 또는 T세포, B세포 등의 면역 세포가 상기 유해 단백질 등 면역원을 특이적으로 인식하거나 결합하는 면역계에 관련된 일체의 반응을 지칭할 수 있다.The immune system refers to a defense system that defends and neutralizes infectious pathogens or harmful proteins in the body, and the immune response is an immune response in which immune proteins such as antibodies or immune cells such as T cells and B cells attack immunogens such as harmful proteins. It can refer to any reaction related to the immune system that specifically recognizes or binds.
이러한 면역 반응에 있어, 상기 감염성 병원체 또는 유해 단백질 등의 면역원(예를 들어, 항원) 내에서, 상기 면역 단백질 등이 특이적으로 인식하는 아미노산 잔기(또는 서열)가 항원 결정기(epitope)로 대표되는 면역원 결정부(immunogenic determinant)로 정의될 수 있다. 또, 이러한 면역원 내의 면역원 결정부를 특이적으로 인식하여 이에 결합하는 항체 등 면역 단백질 내의 아미노산 잔기는 항원 결합부(paratope)로 대표되는 면역원 결합부(immunogen binding site)로 정의될 수 있다. In this immune response, within an immunogen (e.g., antigen) such as an infectious pathogen or harmful protein, an amino acid residue (or sequence) specifically recognized by the immune protein is represented by an epitope. It can be defined as an immunogenic determinant. In addition, amino acid residues in immune proteins, such as antibodies that specifically recognize and bind to the immunogen determinant within the immunogen, can be defined as an immunogen binding site, represented by an antigen binding site (paratope).
또, 상기 항원 결정기는 그 형태 및 항원 결합부와의 작용 방식에 따라, 선형 항원 결정기(linear epitope)와, 입체구조 항원 결정기(structural epitope)로 나뉠 수 있다. 이중, 선형 항원 결정기는 연속적인 선형 아미노산 서열로 구성되어 항원 결합부의 1차원적 구조와 결합할 수 있고, 입체구조 항원 결정기는 3차원적인 단백질 구조가 반영되어 불연속적인 아미노산 서열로 구성되고, 항원 결합부의 3차원적 구조와 결합할 수 있다. In addition, the antigenic determinants can be divided into linear epitopes and structural epitopes, depending on their shape and mode of action with the antigen-binding portion. Among them, the linear antigenic determinant is composed of a continuous linear amino acid sequence and can bind to the one-dimensional structure of the antigen binding site, while the three-dimensional antigenic determinant is composed of a discontinuous amino acid sequence reflecting the three-dimensional protein structure and can bind to the antigen. It can be combined with the three-dimensional structure of wealth.
최근 들어, 면역 반응 등에 기초한 면역 기반 치료제 또는 치료 방법에 관한 관심이 크게 증가하고 있으며, 이에 관한 연구 및 개발도 매우 활발히 이루어지고 있다. 이러한 면역 기반 치료제는 상기 항원 결정기 등 면역원 결정부와, 상기 항원 결합부 등 면역원 결합부 간의 특이적 결합 및 면역 반응 등에 기반하여 개발되므로, 상기 면역원 내에서 면역원 결정부를 예측 또는 확인하고, 상기 면역 단백질 내에서 면역원 결합부를 예측 또는 확인하는 것은 효과적인 면역 기반 치료제 등의 개발에 있어 매우 중요한 문제로 대두되고 있다. Recently, interest in immune-based treatments or treatment methods based on immune responses, etc., has greatly increased, and research and development on these has also been very actively conducted. Since these immune-based therapeutics are developed based on the specific binding and immune response between the immunogenic determinant, such as the antigenic determinant, and the immunogen binding portion, such as the antigen binding portion, etc., the immunogenic determinant within the immunogen is predicted or confirmed, and the immune protein Predicting or confirming immunogen binding sites within the immune system has emerged as a very important issue in the development of effective immune-based therapeutics.
다만, 생체 내 면역 반응에 기반하여 면역원 결정부 또는 면역원 결합부를 실험적으로 확인하기는 매우 어렵기 때문에, 이전부터 이러한 면역원 결정부 또는 면역원 결합부나 이들의 후보군을 예측하기 위한 몇 가지 방법이 제안된 바 있으며, 이에 관한 연구가 계속되고 있다. However, because it is very difficult to experimentally confirm the immunogen determinant or immunogen binding site based on the in vivo immune response, several methods have previously been proposed to predict such immunogen determinant or immunogen binding site or their candidate groups. And research on this is continuing.
그러나, 현재까지 알려진 면역원 결정부 및 면역원 결합부 등의 예측 방법은 그 신뢰성이 충분치 못하였던 것이 사실이다. 이는 주로 면역원 및 면역 단백질의 서열 또는 구조 등에 관한 활용 가능한 데이터가 충분치 못함에 기인한다. 특히, 입체구조 항원 결정기(structural epitope) 및 이에 결합하는 3차원적 항원 결합부를 신뢰성 있게 예측하기 위해서는, 면역원 및 면역 단백질 등 타겟 단백질의 3차원 폴딩 구조에 대한 깊은 이해 및 많은 데이터가 필요하였다. 그러나, 이러한 데이터의 확보는 충분치 못한 실정이며, 이는 상기 입체구조 항원 결정기 및 3차원 항원 결합부의 예측을 더욱 어렵게 하는 요인이 되고 있다. However, it is true that the methods for predicting the immunogen determinant and immunogen binding site known to date have not been sufficiently reliable. This is mainly due to insufficient available data on the sequence or structure of immunogens and immune proteins. In particular, in order to reliably predict the structural epitope and the three-dimensional antigen binding site that binds to it, a deep understanding of the three-dimensional folding structure of target proteins such as immunogens and immune proteins and a lot of data were required. However, securing such data is insufficient, which makes prediction of the three-dimensional antigenic determinant and three-dimensional antigen binding site more difficult.
이러한 제반 문제로 인해, 단백질, 특히, 단백질의 3차원 폴딩 구조 등에 대한 충분치 않은 데이터를 기반으로 하더라도, 상기 면역원 결정부 및/또는 면역원 결합부를 보다 신뢰성 있게 예측할 수 있는 방법 또는 관련 기술의 개발이 계속적으로 요구되고 있다. Due to these problems, the development of methods or related technologies that can more reliably predict the immunogen determinant and/or immunogen binding site continues, even if it is based on insufficient data on proteins, especially the three-dimensional folding structure of the protein. is being requested.
이에 발명의 일 구현예는 면역원 내에서 면역 단백질 또는 면역 세포가 특이적으로 인식 또는 결합하여 면역 반응을 일으키는 면역원 결정부의 존재, 위치 또는 서열 등을 보다 신뢰성 있게 예측할 수 있는 면역원 예측부의 예측 방법을 제공하는 것이다. Accordingly, one embodiment of the invention provides a method for predicting an immunogen prediction portion that can more reliably predict the presence, location, or sequence of an immunogen determinant within an immunogen that is specifically recognized or bound to by an immune protein or immune cell and causes an immune response. It is done.
또한, 발명의 다른 구현예는 면역 단백질 또는 면역 세포 내에서 면역원과 특이적으로 결합하여 면역 반응을 일으키는 면역원 결합부의 존재, 위치 또는 서열 등을 보다 신뢰성 있게 예측할 수 있는 면역원 결합부의 예측 방법을 제공하는 것이다. In addition, another embodiment of the invention provides a method for predicting an immunogen binding site that can more reliably predict the presence, location, or sequence of an immunogen binding site that specifically binds to an immunogen within an immune protein or immune cell and causes an immune response. will be.
이에 발명의 일 구현예에 따르면, 단백질에 관한 제 1 데이터베이스를 기초로, 각 단백질에 포함된 토큰(token)화된 단위 서열별로 마스킹(masking)하면서 양 방향 인공 신경망 모델 학습을 진행하여, 단백질의 단위 서열별 기능 및 배열을 사전 학습하는 단계;Accordingly, according to one embodiment of the invention, based on the first database on proteins, a two-way artificial neural network model is learned while masking each tokenized unit sequence included in each protein, and the unit of the protein is Pre-learning the function and arrangement of each sequence;
면역 단백질 또는 면역 세포가 특이적으로 인식 또는 결합하는 면역 반응 여부에 따라 구분된 면역원 및 비면역원 폴리펩타이드에 관한 제 2 데이터베이스를 기초로, 각 폴리펩타이드에 포함된 토큰화된 단위 서열별로 분류하면서 양 방향 인공 신경망 학습을 진행하여, 상기 폴리펩타이드의 단위 서열별로 면역 반응을 일으키는 면역원 결정부(immunogenic determinant)의 정보를 학습하는 단계; 및 Based on a second database of immunogenic and non-immunogenic polypeptides classified according to whether immune proteins or immune cells specifically recognize or bind to the immune response, the amount is classified by the tokenized unit sequence contained in each polypeptide. Proceeding with directional artificial neural network learning to learn information on immunogenic determinants that cause an immune response for each unit sequence of the polypeptide; and
학습된 인공 신경망을 이용하여, 타겟 면역원 또는 타겟 단백질의 면역원 결정부를 예측하는 단계를 포함하는 면역원 결정부 예측 방법이 제공된다. A method for predicting immunogen determinants is provided, including the step of predicting immunogen determinants of a target immunogen or target protein using a learned artificial neural network.
이러한 일 구현예의 예측 방법에서는, 면역원 및 비면역원 폴리펩타이드의 단위 서열들을 토큰화하고, 토큰화된 단위 서열별로 면역원 결정부의 존재, 위치 또는 배열 등에 대해 양 방향 인공 신경망 학습을 진행한다. 이렇게 학습된 인공 신경망을 활용하여, 단백질의 3차원 폴딩 구조 등에 대한 정보가 부족한 경우에도, 상기 타겟 면역원 또는 타겟 단백질(예를 들어, 항원 단백질) 내에서 항체 등과 특이적으로 결합하는 항원 결정기(epitope) 등 면역원 결정부를 신뢰성 있게 예측할 수 있다. In this prediction method of one embodiment, unit sequences of immunogenic and non-immunogenic polypeptides are tokenized, and bidirectional artificial neural network learning is performed on the presence, location, or arrangement of immunogenic determinants for each tokenized unit sequence. By using the artificial neural network learned in this way, even when there is insufficient information about the three-dimensional folding structure of the protein, an antigenic determinant (epitope) that specifically binds to an antibody, etc. within the target immunogen or target protein (e.g., antigen protein) ), etc., can be predicted reliably.
이러한 일 구현예의 예측 방법에서, 상기 사전 학습 단계는, 상기 단백질에 포함된 아미노산 서열을 일정 길이를 갖는 복수의 단위 서열로 구분하여 토큰화하는 단계를 포함할 수 있다. In the prediction method of this embodiment, the pre-learning step may include dividing the amino acid sequence included in the protein into a plurality of unit sequences with a certain length and tokenizing them.
보다 구체적인 일 예에서, 상기 사전 학습 단계는, 상기 토큰화된 복수의 단위 서열 중 일부를 마스킹하는 단계; 및 상기 마스킹된 단위 서열 주위의 양 방향을 따라 인공 신경망 모델 학습을 진행하여 각 단위 서열의 기능, 배열 또는 순서를 사전 학습하는 단계를 더 포함할 수 있다. 이때, 상기 인공 신경망 모델 학습 단계는, 상기 마스킹된 단위 서열을 예측하는 단계; 및 상기 예측 결과의 정확성을 검증하여 피드백하는 단계를 포함하여 진행될 수 있고, 이러한 과정을 통해 상기 인공 신경망이 단백질의 단위 서열별 기능 및 배열 등을 높은 신뢰성으로 예측할 수 있게 된다. In a more specific example, the pre-learning step includes masking some of the plurality of tokenized unit sequences; And it may further include the step of pre-learning the function, arrangement, or order of each unit sequence by learning an artificial neural network model along both directions around the masked unit sequence. At this time, the artificial neural network model learning step includes predicting the masked unit sequence; and verifying the accuracy of the prediction result and providing feedback. Through this process, the artificial neural network can predict the function and arrangement of each unit sequence of the protein with high reliability.
또한, 상기 일 구현예의 예측 방법에서, 상기 면역원 결정부 학습 단계는, 상기 폴리펩타이드에 포함된 아미노산 서열을 일정 길이를 갖는 복수의 단위 서열로 구분하여 토큰화하는 단계를 포함할 수 있다. Additionally, in the prediction method of one embodiment, the immunogen determinant learning step may include dividing the amino acid sequence included in the polypeptide into a plurality of unit sequences with a certain length and tokenizing them.
보다 구체적인 예에서, 상기 면역원 결정부 학습 단계는, 상기 토큰화된 복수의 단위 서열별로 면역원 결정부가 존재하는지 여부를 양 방향으로 예측 및 분류하는 단계; 및 상기 예측 결과의 정확성을 검증하여 피드백하는 단계를 포함할 수 있고, 이러한 과정을 통해, 상기 단위 서열별로 면역원 결정부가 존재하는지 여부가 예측 및 분류되어 데이터로 출력 및 검증되고, 상기 출력 데이터를 기초로 면역원 결정부의 예측 모델이 도출될 수 있다. In a more specific example, the step of learning the immunogen determinant includes: predicting and classifying in both directions whether an immunogen determinant exists for each of the plurality of tokenized unit sequences; And it may include a step of verifying the accuracy of the prediction result and feeding it back. Through this process, the presence or absence of an immunogenic determinant for each unit sequence is predicted and classified, output and verified as data, and based on the output data. As a result, a prediction model for the immunogenic determinant can be derived.
상기 일 구현예의 방법에서는, 상술한 방법으로 학습된 인공 신경망 또는 상기 면역원 결정부 예측 모델을 기초로, 상기 타겟 면역원 또는 타겟 단백질의 서열 또는 구조 정보를 입력하여, 상기 면역원 결정부의 존재 여부, 위치 또는 서열을 신뢰성 있게 예측할 수 있다. In the method of one embodiment, the sequence or structure information of the target immunogen or target protein is input based on an artificial neural network learned by the above-described method or a prediction model of the immunogen determinant, and the presence, location, or The sequence can be predicted reliably.
한편, 발명의 다른 구현예에 따르면, 단백질에 관한 제 1 데이터베이스를 기초로, 각 단백질에 포함된 토큰(token)화된 단위 서열별로 마스킹(masking)하면서 양 방향 인공 신경망 학습을 진행하여, 단백질의 단위 서열별 기능 및 배열을 사전 학습하는 단계;Meanwhile, according to another embodiment of the invention, based on the first database on proteins, bidirectional artificial neural network learning is performed while masking each tokenized unit sequence included in each protein, and the protein unit Pre-learning the function and arrangement of each sequence;
상호 결합된 면역원 폴리펩타이드 및 면역 단백질의 복합체에 관한 제 3 데이터베이스를 기초로, 각 복합체에 포함된 토큰화된 단위 서열별로 면역원 결합부 여부에 따라 분류하면서 양 방향 인공 신경망 학습을 진행하여, 상기 면역 단백질의 단위 서열별로 상기 면역원 폴리펩타이드와 면역 반응을 일으키는 면역원 결합부 (immunogen binding site)의 정보를 학습하는 단계; 및 Based on a third database on complexes of mutually bound immunogen polypeptides and immune proteins, bidirectional artificial neural network learning is performed while classifying each tokenized unit sequence included in each complex according to whether it is an immunogen binding site, and the immune Learning information about the immunogen binding site that causes an immune response with the immunogen polypeptide for each protein unit sequence; and
학습된 인공 신경망을 이용하여, 타겟 면역 단백질 또는 타겟 면역 세포에서 면역원 결합부를 예측하는 단계를 포함하는 면역원 결합부 예측 방법이 제공된다. A method for predicting an immunogen binding site is provided, which includes predicting an immunogen binding site in a target immune protein or target immune cell using a learned artificial neural network.
이러한 다른 구현예의 예측 방법에서는, 일 구현예와 동일한 사전 학습 단계를 진행하고, 상호 결합된 면역원 폴리펩타이드 및 면역 단백질의 복합체에 관한 제 3 데이터베이스를 기초로 하는 면역원 결합부의 학습 단계를 추가 진행한다. 이때, 상기 복합체에 포함된 단위 서열들을 토큰화하고, 토큰화된 단위 서열별로 면역원 결합부의 존재, 위치 또는 배열 등에 대해 양 방향 인공 신경망 학습을 진행한다. 이렇게 학습된 인공 신경망을 활용하여, 단백질의 3차원 폴딩 구조 등에 대한 정보가 부족한 경우에도, 상기 타겟 면역 단백질(예를 들어, 항체 단백질) 내에서 상기 항원 결정기 등 면역원 결정부와 특이적으로 결합하는 항원 결합부(paratope) 등 면역원 결합부를 신뢰성 있게 예측할 수 있다. In the prediction method of this other embodiment, the same pre-learning step as in one embodiment is performed, and a learning step of the immunogen binding portion based on a third database on complexes of mutually bound immunogen polypeptides and immune proteins is additionally performed. At this time, the unit sequences included in the complex are tokenized, and bidirectional artificial neural network learning is performed on the presence, location, or arrangement of the immunogen binding portion for each tokenized unit sequence. By using the artificial neural network learned in this way, even when there is insufficient information about the three-dimensional folding structure of the protein, etc., it is possible to specifically bind to the immunogenic determinant such as the antigenic determinant within the target immune protein (e.g., antibody protein). Immunogen binding sites, such as antigen binding sites (paratopes), can be predicted reliably.
또한, 상기 다른 구현예의 예측 방법에서는, 면역원 폴리펩타이드 및 면역 단백질이 상호 결합된 복합체에 관한 제 3 데이터베이스를 활용함에 따라, 상기 면역원 결합부 뿐만 아니라 항원 등 타겟 면역원 내의 면역원 결정부 역시 신뢰성 있게 예측할 수 있다. In addition, in the prediction method of the other embodiment, by utilizing a third database on the complex in which immunogen polypeptides and immune proteins are interconnected, not only the immunogen binding portion but also the immunogen determining portion within the target immunogen, such as an antigen, can be reliably predicted. there is.
상기 다른 구현예의 예측 방법에서, 상기 면역원 결합부 학습 단계는, 상기 상호 결합된 면역원 폴리펩타이드 및 면역 단백질에 각각 포함된 아미노산 서열을 일정 길이를 갖는 복수의 단위 서열로 구분하여 토큰화하는 단계를 포함할 수 있다. In the prediction method of another embodiment, the immunogen binding site learning step includes dividing the amino acid sequences included in the mutually bound immunogen polypeptide and immune protein into a plurality of unit sequences with a certain length and tokenizing them. can do.
보다 구체적인 예에서, 상기 면역원 결합부 학습 단계는, 상기 토큰화된 복수의 단위 서열별로 면역원 결합부가 존재하는지 여부를 양 방향으로 예측 및 분류하는 단계; 및 상기 예측 결과의 정확성을 검증하여 피드백하는 단계를 포함할 수 있다. In a more specific example, the immunogen binding site learning step includes predicting and classifying in both directions whether an immunogen binding site exists for each of the plurality of tokenized unit sequences; And it may include verifying the accuracy of the prediction result and providing feedback.
이때, 상기 면역원 폴리펩타이드 및 면역 단백질의 양 에지(edge)에 대응하는 토큰화된 단위 서열에는 고유의 분류 식별자(classification identifier)가 부여되어 각각의 임베딩 벡터로 산출될 수 있고, 이들 임베딩 벡터가 상기 에지에서 서로 연결된(concatenated) 상태로 입력되어 상기 인공 신경망 학습이 진행될 수 있다. 이러한 고유 분류 식별자의 부여 등을 통해, 면역원 및 면역 단백질이 구분되어 인공 신경망 학습이 진행될 수 있고, 상기 면역원 결합부 및 면역원 결정부가 신뢰성 있게 예측될 수 있다. At this time, the tokenized unit sequences corresponding to the positive edges of the immunogen polypeptide and immune protein are given a unique classification identifier and can be calculated as each embedding vector, and these embedding vectors are The artificial neural network learning can proceed by being input in a concatenated state at the edge. Through the assignment of such unique classification identifiers, immunogens and immune proteins can be distinguished, artificial neural network learning can proceed, and the immunogen binding portion and immunogen determining portion can be predicted reliably.
상술한 일 구현예의 방법에 따르면, 단백질에 관한 정보, 특히, 단백질의 3차원 폴딩 구조 등에 관한 데이터가 충분히 않은 경우에도, 면역원 내에서 면역 단백질 또는 면역 세포가 특이적으로 인식 또는 결합하여 면역 반응을 일으키는 면역원 결정부의 존재, 위치 또는 서열 등을 보다 신뢰성 있게 예측할 수 있다. According to the method of the above-described embodiment, even when there is insufficient information about the protein, especially data about the three-dimensional folding structure of the protein, etc., the immune protein or immune cell specifically recognizes or binds within the immunogen to initiate an immune response. The presence, location, or sequence of the immunogen-determining part that causes the immunogen can be predicted more reliably.
또한, 발명의 다른 구현예에 따르면, 상기 단백질 관련 데이터가 충분치 않은 경우에도, 면역 단백질 또는 면역 세포 내에서 상기 면역원과 특이적으로 결합하여 면역 반응을 일으키는 면역원 결합부의 존재, 위치 또는 서열 등을 보다 신뢰성 있게 예측할 수 있다. 더 나아가, 상기 다른 구현예의 방법에 따르면, 상기 면역원 결합부 뿐만 아니라, 상기 면역원 내의 면역원 결정부에 관해서도 신뢰성 있게 예측할 수 있다. In addition, according to another embodiment of the invention, even if the protein-related data is insufficient, the presence, location, or sequence of an immunogen binding portion that specifically binds to the immunogen and causes an immune response in an immune protein or immune cell is determined. It can be predicted reliably. Furthermore, according to the method of the other embodiment, not only the immunogen binding portion but also the immunogen determining portion within the immunogen can be predicted reliably.
따라서, 발명의 일 구현예 또는 다른 구현예의 예측 방법은 면역원 결정부 및/또는 면역원 결합부를 보다 신뢰성 있게 예측하여, 보다 효과적인 면역 기반 치료제 또는 치료 방법을 단 시간 내에 경제적으로 개발하는데 크게 기여할 수 있다. Accordingly, the prediction method of one embodiment or another embodiment of the invention can predict the immunogen determinant and/or immunogen binding portion more reliably, thereby greatly contributing to the economical development of a more effective immune-based therapeutic agent or treatment method in a short period of time.
도 1은 발명의 일 구현예에 따른 면역원 결정부 예측방법을 개략적으로 나타낸 모식도이다.
도 2는 발명의 다른 구현예에 따른 면역원 결합부 예측 방법에서 일 구현예와 구분되는 면역원 결합부 학습 단계를 개략적으로 나타낸 모식도이다. Figure 1 is a schematic diagram schematically showing a method for predicting an immunogen determinant according to an embodiment of the invention.
Figure 2 is a schematic diagram schematically showing the immunogen binding site learning step, which is distinct from one embodiment, in the immunogen binding site prediction method according to another embodiment of the invention.
이하, 첨부한 도면을 참고로, 발명의 구현예들에 따른 면역원 결정부 및 면역원 결합부의 예측 방법에 대해 설명하기로 한다. 참고로, 도 1에는 발명의 일 구현예에 따른 면역원 결정부 예측방법, 구체적으로 이에 포함되는 사전 학습 단계 및 면역원 결정부 학습 단계의 일 예가 개략적으로 도시되어 있다. Hereinafter, with reference to the attached drawings, a method for predicting an immunogen determining portion and an immunogen binding portion according to embodiments of the invention will be described. For reference, Figure 1 schematically shows an example of the immunogen determinant prediction method according to an embodiment of the invention, specifically the dictionary learning step and immunogen determinant learning step included therein.
도 1에 도시된 바와 같이, 발명의 일 구현예에 의한 예측 방법에서는, 단백질에 관한 제 1 데이터베이터를 기초로 하는 사전 학습 단계와, 면역원 및 비면역원 폴리펩타이드에 관한 제 2 데이터베이스를 기초로 하는 면역원 결정부 학습 단계를 거쳐, 면역원 내에서 항원 결정기(epitope) 등 면역원 결정부의 존재, 위치 또는 서열 등을 예측하는 예측 모델을 도출한다. As shown in Figure 1, in the prediction method according to one embodiment of the invention, a dictionary learning step based on a first database on proteins and a second database on immunogenic and non-immunogenic polypeptides Through the immunogen determinant learning step, a prediction model is derived that predicts the presence, location, or sequence of immunogen determinants, such as epitopes, within the immunogen.
이러한 사전 학습 및 면역원 결정부 학습 단계에서는, 상기 제 1 및 제 2 데이터베이스에 포함된 각 단백질 및 면역원 또는 비면역원 폴리펩타이드에 관한 서열 정보를 기초로, 이들의 단위 서열을 토큰화하고, 토큰화된 단위 서열의 일부를 마스킹(masking)하거나 분류하면서 양 방향으로 인공 신경망 모델을 학습한다. In this pre-learning and immunogen determination part learning step, the unit sequences of each protein and immunogen or non-immunogenic polypeptide included in the first and second databases are tokenized, and the tokenized An artificial neural network model is learned in both directions while masking or classifying part of the unit sequence.
이러한 양 방향 인공 신경망 학습 과정을 통해, 각 단위 서열의 순서, 배열 및 기능 등을 예측하고, 각 단위 서열이 항체 등 면역 단백질 또는 면역 세포가 특이적으로 인식하는 면역원 결정부에 해당하는지 예측하는 예측 모델이 도출될 수 있다. Through this two-way artificial neural network learning process, the order, arrangement, and function of each unit sequence are predicted, and prediction is made to predict whether each unit sequence corresponds to an immune protein such as an antibody or an immunogenic determinant specifically recognized by an immune cell. A model can be derived.
이러한 예측 모델을 활용함에 따라, 타겟이 되는 항원 등 타겟 면역원 내에서 면역원 결정부를 신뢰성 있게 예측할 수 있음이 확인되었다. 특히, 이러한 일 구현예의 예측 방법에서는, 상기 단백질과, 면역원/비면역원 폴리펩타이드의 서열 정보를 기초로 면역원 결정부를 신뢰성 있게 예측할 수 있다. 따라서, 일 구현예의 방법에 따르면, 면역원 등 단백질의 3차원 폴딩 구조 등에 관한 데이터가 충분치 않은 경우에도, 면역원 내에서 면역 반응을 일으키는 면역원 결정부를 신뢰성 있게 예측할 수 있으며, 그 결과 기존 방법으로는 예측이 쉽지 않았던 입체구조 항원 결정기(structural epitope) 역시 보다 신뢰성 있게 예측할 수 있다. By using this prediction model, it was confirmed that the immunogenic determinant within the target immunogen, such as the target antigen, can be predicted reliably. In particular, in the prediction method of this embodiment, the immunogenic determinant can be reliably predicted based on sequence information of the protein and the immunogenic/non-immunogenic polypeptide. Therefore, according to the method of one embodiment, even when there is insufficient data on the three-dimensional folding structure of proteins such as immunogens, it is possible to reliably predict the immunogen determinant that causes an immune response within the immunogen, and as a result, the prediction is not possible using existing methods. Structural epitopes, which were not easy to determine, can also be predicted more reliably.
한편, 일 구현예의 예측 방법에서, 상기 사전 학습 단계에서 사용되는 상기 제 1 데이터베이스는 복수의 단백질에 대해, 서열, 기능, 구조 및 알려진 변이 중 하나 이상에 관한 정보를 포함할 수 있다. 보다 구체적으로, 상기 제 1 데이터베이스는 다수의 단백질에 대해, 기능, 서열, 도메인 구조 및 확인된 변이들에 대한 정보가 포함된 단백질 데이터베이스로 될 수 있고, 이러한 제 1 데이터베이스의 예로는, “Bairoch, A., and R. Apweiler. 1996. “The SWISS-PROT Protein Sequence Data Bank and Its New Supplement TREMBL.” Nucleic Acids Research 24 (1): 21-25” 또는 “Boutet, Emmanuel, Damien Lieberherr, Michael Tognolli, Michel Schneider, and Amos Bairoch. 2007. “UniProtKB/Swiss-Prot.” Methods in Molecular Biology 406: 89-112” 등을 통해 알려진 단백질 데이터베이스를 들 수 있다. Meanwhile, in the prediction method of one embodiment, the first database used in the pre-learning step may include information about one or more of sequence, function, structure, and known mutations for a plurality of proteins. More specifically, the first database may be a protein database containing information on function, sequence, domain structure, and identified mutations for multiple proteins, and examples of such first databases include “Bairoch, A., and R. Apweiler. 1996. “The SWISS-PROT Protein Sequence Data Bank and Its New Supplement TREMBL.” Nucleic Acids Research 24 (1): 21-25” or “Boutet, Emmanuel, Damien Lieberherr, Michael Tognolli, Michel Schneider, and Amos Bairoch. 2007. “UniProtKB/Swiss-Prot.” Known protein databases include “Methods in Molecular Biology 406: 89-112”.
상기 사전 학습 단계에서는, 상기 제 1 데이터베이스에 포함된 다수의 단백질에 관한 정보를 별도의 가공 없이 학습 데이터로 활용할 수도 있지만, 인공 신경망 학습의 효율성을 보다 높이기 위해, 일정 길이 이하, 예를 들어, 5000 이하, 혹은 3000 이하, 혹은 2500 이하의 아미노산 서열, 보다 구체적으로 서로 동등한 일정 길이의 아미노산 서열을 갖는 단백질에 관한 정보로 사전 가공하여 활용할 수 있다. 또한, 후술하는 면역원 결정부 학습 단계에 있어서도, 상기 제 2 데이터베이스에 포함된 다수의 면역원 및 비면역원 폴리펩타이드에 관한 정보를 일정 길이 이하 혹은 서로 동등한 일정 길이의 아미노산 서열을 갖는 폴리펩타이드에 관한 정보로 사전 가공함에 따라, 예측 모델의 도출을 위한 인공 신경망 학습의 효율성을 보다 높일 수 있다. In the pre-learning step, information about a number of proteins included in the first database can be used as learning data without additional processing. However, in order to further increase the efficiency of artificial neural network learning, the information about the plurality of proteins included in the first database can be used as learning data. It can be pre-processed and utilized as information about proteins having amino acid sequences of less than, or less than, 3000, or less than, 2500, or more specifically, amino acid sequences of a certain length that are equivalent to each other. In addition, in the immunogen determination part learning step described later, information about a plurality of immunogenic and non-immunogenic polypeptides included in the second database is converted into information about polypeptides having amino acid sequences of a certain length or less or equal to each other. By pre-processing, the efficiency of artificial neural network learning for deriving a prediction model can be further increased.
또한, 상기 사전 학습 단계에서는, 도 1에도 도시된 바와 같이, 상기 제 1 데이터베이스의 각 단백질에 포함된 아미노산 서열을 일정 길이를 갖는 복수의 단위 서열로 구분하여 토큰화할 수 있다. 이러한 토큰화는, 예를 들어, 일정 길이의 아미노산 단위 서열별로 이루어질 수 있고, 이를 통해 단백질의 아미노산 서열로부터 복수의 토큰이 생성될 수 있다. Additionally, in the pre-learning step, as shown in FIG. 1, the amino acid sequence included in each protein in the first database can be divided into a plurality of unit sequences with a certain length and tokenized. For example, such tokenization can be performed for each amino acid unit sequence of a certain length, and through this, a plurality of tokens can be generated from the amino acid sequence of the protein.
상기 사전 학습 단계에서는, 상기 토큰화된 복수의 단위 서열 중 일부, 예를 들어, 5 내지 25%, 혹은 10 내지 20%를 마스킹하는 한편, 상기 마스킹된 단위 서열 주위의 단백질 양 방향을 따라 인공 신경망 모델의 어텐션 메커니즘(attention mechanism)을 통한 양 방향 학습이 이루어질 수 있다. 이때, 마스킹이란 토큰화된 단위 서열 일부를 가리는 작업을 의미하는 것으로 마스킹된 토큰은 'MASK' 토큰으로 구분될 수 있다. In the pre-learning step, a portion of the plurality of tokenized unit sequences, for example, 5 to 25%, or 10 to 20%, is masked, while an artificial neural network is used along both directions of the protein around the masked unit sequence. Bidirectional learning can be achieved through the model's attention mechanism. At this time, masking refers to the operation of covering part of the tokenized unit sequence, and the masked token can be distinguished as a 'MASK' token.
또, 상기 인공 신경망 학습 과정에서는, 상기 마스킹된 토큰에 해당하는 단위 서열을 예측하고, 제 1 데이터베이스로부터 구분된 검증 데이터셋 및 테스트 데이터셋을 기초로, 상기 단위 서열 예측 결과의 정확성을 확인 및 검증하여 피드백할 수 있다. 이와 같이, 단백질의 양 방향을 따라, 토큰화된 단위 서열 중 일부를 다양한 조합으로 마스킹하면서, 마스킹된 단위 서열을 예측하고, 그 예측 결과의 정확성을 확인, 검증 및 피드백하는 과정을 통해, 인공 신경망 모델에 단백질에 포함된 각 단위 서열의 기능, 배열 또는 순서를 사전 학습시킬 수 있다.In addition, in the artificial neural network learning process, the unit sequence corresponding to the masked token is predicted, and the accuracy of the unit sequence prediction result is confirmed and verified based on a verification dataset and a test dataset separated from the first database. You can give feedback. In this way, by masking some of the tokenized unit sequences in various combinations along both directions of the protein, predicting the masked unit sequences, and confirming, verifying, and feeding back the accuracy of the prediction results, an artificial neural network The function, arrangement, or order of each unit sequence included in the protein can be pre-trained in the model.
이러한 사전 학습 결과, 생물학적 및/또는 화학적 특성의 최소화된 고려하에 인공 신경망 모델이 단백질에 포함되는 단위 서열들의 순서 및 배열 등을 예측할 수 있게 된다. 일 구현예의 예측 방법에서, 상기 사전 학습 단계를 먼저 진행함에 따라, 후술하는 단계를 거쳐 도출되는 면역원 결정부의 예측 모델의 신뢰성이 보다 향상될 수 있다. As a result of this prior learning, the artificial neural network model can predict the order and arrangement of unit sequences included in the protein under minimal consideration of biological and/or chemical characteristics. In the prediction method of one embodiment, by performing the pre-learning step first, the reliability of the prediction model of the immunogen determination part derived through the steps described later can be further improved.
한편, 상술한 사전 학습 단계의 양 방향 인공 신경망 학습을 위해, 상기 단위 서열들을 토큰화하는 토큰화 모듈, 토큰화된 단위 서열 중 일부를 마스킹하는 마스킹 모듈, 마스킹된 단위 서열을 변환 및 예측하면서 학습을 진행하는 변환 모듈 및 학습 모듈, 이러한 단위 서열 예측 결과의 정확성을 확인 및 연산하는 예측 정확도 연산 모듈 및 상기 단위 서열들의 배열 등에 대한 예측 모델을 생성하는 예측 모델 생성 모듈을 포함한 예측 모델 생성 장치가 사용될 수 있다. Meanwhile, for learning a bidirectional artificial neural network in the above-described pre-learning step, a tokenization module that tokenizes the unit sequences, a masking module that masks some of the tokenized unit sequences, and learning while converting and predicting the masked unit sequences A prediction model generation device is used, including a conversion module and a learning module that perform the process, a prediction accuracy calculation module that checks and calculates the accuracy of the unit sequence prediction results, and a prediction model generation module that generates a prediction model for the arrangement of the unit sequences, etc. You can.
상술한 양 방향 인공 신경망 학습 및 이의 진행을 위한 예측 모델 생성 장치는 이전에 언어 학습을 위해 적용되던 양 방향 인공 신경망 학습 방법 및 예측 모델 생성 장치와 유사한 형태를 가질 수 있으며, 이의 일 예는 한국 등록 특허 공보 제 2426508 호 또는 “Devlin, Jacob and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina. 2019. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.” In Devlin-Etal-2019-Bert, 4171-86. Association for Computational Linguistics” 등을 통해 개시되어 있다. The above-described bidirectional artificial neural network learning and prediction model generation device for its progress may have a similar form to the bidirectional artificial neural network learning method and prediction model generation device previously applied for language learning, an example of which is registered in Korea. Patent Publication No. 2426508 or “Devlin, Jacob and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina. 2019. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.” In Devlin-Etal-2019-Bert, 4171-86. Association for Computational Linguistics”, etc.
한편, 일 구현예의 예측 방법에서, 상술한 사전 학습 단계를 진행한 후에는, 항체 등 면역 단백질 또는 면역 세포가 특이적으로 인식 또는 결합하는 면역 반응 여부에 따라 구분된 면역원 및 비면역원 폴리펩타이드에 관한 제 2 데이터베이스를 기초로, 양 방향 인공 신경망 학습을 진행하여 면역원 결정부의 예측 모델을 학습하는 단계를 진행한다. Meanwhile, in the prediction method of one embodiment, after performing the above-described prior learning step, immunogenic and non-immunogenic polypeptides classified according to whether immune proteins such as antibodies or immune cells specifically recognize or bind to the immune response are identified. Based on the second database, a two-way artificial neural network learning process is performed to learn a prediction model of the immunogen determination part.
이러한 면역원 결정부 학습 단계에서, 상기 제 2 데이터베이스는 면역 반응을 일으키는 면역원 결정부 포함 면역원 폴리펩타이드와, 면역원 결정부를 포함하지 않는 비면역원 폴리펩타이드가 구분되어, 이들의 서열 또는 구조에 관한 정보를 포함할 수 있다. 보다 구체적으로, 상기 제 2 데이터베이스는 복수의 실험을 통해 둘 이상의 면역 단백질 또는 면역 세포와 면역 반응을 일으키거나 일으키지 않는 것으로 확인된 면역원 및 비면역원 폴리펩타이드에 관한 정보를 포함할 수 있으며, 이러한 검증된 면역원/비면역원 폴리펩타이드에 관한 제 2 데이터베이스를 활용하여, 일 구현예의 예측 방법의 신뢰성을 보다 높일 수 있다. In this immunogenic determinant learning step, the second database is divided into immunogen polypeptides containing immunogen determinants that cause an immune response and non-immunogenic polypeptides that do not contain immunogen determinants, and includes information on their sequences or structures. can do. More specifically, the second database may include information on immunogenic and non-immunogenic polypeptides that have been confirmed to cause or not to cause an immune response with two or more immune proteins or immune cells through multiple experiments, and these verified By utilizing a second database on immunogenic/non-immunogenic polypeptides, the reliability of the prediction method of one embodiment can be further increased.
더욱 구체적인 일 실시예에서, 상기 제 2 데이터베이스는 상기 면역원 및 비면역원 폴리펩타이드의 연속적 아미노산 서열 정보, 비연속적 아미노산 서열 정보 및 3차원 구조 정보로 이루어진 군에서 선택된 1종 이상의 정보를 포함할 수 있다. 예를 들어, 일 구현예의 예측 방법에 따르면, 선형 항원 결정기(linear epitope) 뿐만 아니라 입체구조 항원 결정기(structural epitope) 형태의 면역원 결정부가 예측될 수 있다. 이 중, 상기 선형 항원 결정기의 예측 방법에서는, 상기 면역원 및 비면역원 폴리펩타이드의 연속적 아미노산 서열 정보가 포함된 제 2 데이터베이스가 학습 데이터로서 사용될 수 있으며, 상기 입체구조 항원 결정기를 예측하고자 할 경우에는, 비연속적 아미노산 서열 정보 또는 3차원 구조 정보가 포함된 제 2 데이터베이스가 사용될 수 있다. 이러한 제 2 데이터베이스의 일 예로는, “Vita, Randi, Swapnil Mahajan, James A. Overton, Sandeep Kumar Dhanda, Sheridan Martini, Jason R. Cantrell, Daniel K. Wheeler, Alessandro Sette, and Bjoern Peters. 2019. “The Immune Epitope Database (IEDB): 2018 Update.” Nucleic Acids Research 47 (D1): D339-43” 또는 단백질 데이터 뱅크(Protein Data Bank; PDB)를 통해 알려진 데이터베이스 등을 들 수 있다. In a more specific embodiment, the second database may include one or more types of information selected from the group consisting of continuous amino acid sequence information, discontinuous amino acid sequence information, and three-dimensional structure information of the immunogenic and non-immunogenic polypeptides. For example, according to the prediction method of one embodiment, immunogenic determinants in the form of linear epitopes as well as structural epitopes can be predicted. Among these, in the method for predicting the linear antigenic determinant, a second database containing continuous amino acid sequence information of the immunogenic and non-immunogenic polypeptides can be used as learning data, and when trying to predict the three-dimensional antigenic determinant, A second database containing non-contiguous amino acid sequence information or three-dimensional structure information may be used. An example of such a secondary database is “Vita, Randi, Swapnil Mahajan, James A. Overton, Sandeep Kumar Dhanda, Sheridan Martini, Jason R. Cantrell, Daniel K. Wheeler, Alessandro Sette, and Bjoern Peters. 2019. “The Immune Epitope Database (IEDB): 2018 Update.” Nucleic Acids Research 47 (D1): D339-43” or a known database through Protein Data Bank (PDB).
상기 면역원 결정부 학습 단계에서, 상기 제 2 데이터베이스에 포함된 다수의 면역원 및 비면역원 폴리펩타이드에 관한 정보를 일정 길이의 아미노산 서열을 갖는 폴리펩타이드에 관한 정보로 사전 가공함에 따라 예측 방법의 신뢰성을 보다 높일 수 있음은 이미 상술한 바와 같다. In the immunogen determinant learning step, the information on a number of immunogenic and non-immunogenic polypeptides included in the second database is pre-processed into information on polypeptides having an amino acid sequence of a certain length, thereby increasing the reliability of the prediction method. The fact that it can be increased is as already described above.
한편, 상기 면역원 결정부 학습 단계에서는, 도 1에도 도시된 바와 같이, 상기 제 2 데이터베이스의 각 폴리펩타이드에 포함된 아미노산 서열을 일정 길이를 갖는 복수의 단위 서열로 구분하여 토큰화할 수 있다. 이러한 토큰화는, 예를 들어, 항원 결정기 등 면역원 결정부에 대응하는 일정 길이의 아미노산 단위 서열별로 이루어질 수 있고, 이를 통해 면역원 또는 비면역원 폴리펩타이드의 아미노산 서열로부터 복수의 토큰이 생성될 수 있다. Meanwhile, in the immunogen determinant learning step, as shown in FIG. 1, the amino acid sequence included in each polypeptide of the second database can be divided into a plurality of unit sequences with a certain length and tokenized. For example, such tokenization can be performed for each amino acid unit sequence of a certain length corresponding to an immunogenic determinant such as an antigenic determinant, and through this, a plurality of tokens can be generated from the amino acid sequence of an immunogenic or non-immunogenic polypeptide.
상기 면역원 결정부 학습 단계에서는, 상기 토큰화된 복수의 단위 서열 주위의 폴리펩타이드 양 방향을 따라 사전 학습 단계에서와 마찬가지로 인공 신경망 모델 학습을 진행할 수 있다. 이러한 양 방향 인공 신경망 학습 과정에서, 각 단위 서열별로 면역원 결정부에 해당하거나 이러한 면역원 결정부가 존재하는지 여부를 예측 및 분류하여 데이터로 출력할 수 있다(예를 들어, 도 1의 “B”에서 면역원 결정부를 예측한 후, 그 예측 데이터를 “0” 또는 “1”로 분류하여 출력). In the immunogen determinant learning step, artificial neural network model learning can be performed along both directions of the polypeptide around the plurality of tokenized unit sequences, as in the pre-learning step. In this two-way artificial neural network learning process, it is possible to predict and classify whether each unit sequence corresponds to an immunogen-determining part or whether such an immunogen-determining part exists and output it as data (for example, the immunogen-determining part in “B” in Figure 1 After predicting the decision part, the predicted data is classified as “0” or “1” and output).
이러한 면역원 결정부 예측 결과는 제 2 데이터베이스로부터 구분된 테스트 데이터셋을 기초로 그 정확성이 확인 및 검증되어 피드백될 수 있다. 예를 들어, weighted cross entropy 등의 손실 함수를 통해 파라미터들을 조정할 수 있다. 이와 같이, 토큰화된 단위 서열이 면역원 결정부인지 아닌지 예측하고, 그 예측 결과의 정확성을 확인, 검증 및 피드백하는 과정을 통해, 면역원 내에서 면역원 결정부의 존재, 위치 및 배열 등에 관한 정보를 신뢰성 있게 예측하는 예측 모델이 도출될 수 있다. The accuracy of this immunogen determinant prediction result can be confirmed and verified based on a test dataset separated from the second database and fed back. For example, parameters can be adjusted through loss functions such as weighted cross entropy. In this way, through the process of predicting whether a tokenized unit sequence is an immunogen determinant or not, and confirming, verifying, and feeding back the accuracy of the prediction result, information on the presence, location, and arrangement of the immunogen determinant within the immunogen can be reliably obtained. A predictive model that makes predictions can be derived.
이렇게 학습된 인공 신경망 모델 또는 상기 면역원 결정부 예측 모델을 기초로, 미지의 타겟 면역원 또는 타겟 단백질의 서열 또는 구조 정보를 입력하여, 이러한 면역원 내에서 상기 면역원 결정부의 존재 여부, 위치 또는 서열 등을 신뢰성 있게 예측할 수 있다. Based on the artificial neural network model learned in this way or the immunogen determinant prediction model, the sequence or structure information of the unknown target immunogen or target protein is input, and the presence, location, or sequence of the immunogen determinant within this immunogen can be reliably determined. It can be predicted.
상술한 면역원 결정부 학습 단계에 있어서는, 양 방향 인공 신경망 학습을 위해, 상기 단위 서열들을 토큰화하는 토큰화 모듈, 토큰화된 단위 서열을 분류하는 분류(classification) 모듈, 단위 서열을 예측하면서 학습을 진행하는 학습 모듈, 이러한 단위 서열 예측 결과의 정확성을 확인 및 연산하는 예측 정확도 연산 모듈 및 상기 단위 서열들의 배열 등에 대한 예측 모델을 생성하는 예측 모델 생성 모듈을 포함한 예측 모델 생성 장치가 사용될 수 있다. In the above-mentioned immunogen decision part learning step, for learning a bidirectional artificial neural network, a tokenization module for tokenizing the unit sequences, a classification module for classifying the tokenized unit sequences, and learning while predicting the unit sequence A prediction model generating device may be used, including a learning module that progresses, a prediction accuracy calculation module that checks and calculates the accuracy of the unit sequence prediction results, and a prediction model generation module that generates a prediction model for the arrangement of the unit sequences.
한편, 상술한 일 구현예의 예측 방법에 따르면, 항원 단백질로 대표되는 타겟 면역원 또는 타겟 단백질의 면역원 결정부를 신뢰성 있게 예측할 수 있고, 이러한 면역원 결정부는 상기 항원 단백질에서 항체와 특이적으로 결합하여 면역 반응을 일으키는 항원 결정기(epitope)로 대표될 수 있다. 또한, 일 구현예의 예측 방법에서는, 단백질의 3차원 구조 정보 등이 부족한 경우에도, 선형 항원 결정기(linear epitope) 뿐만 아니라 입체구조 항원 결정기(structural epitope) 또한 신뢰성 있게 예측할 수 있음이 확인되었다. Meanwhile, according to the prediction method of the above-described embodiment, it is possible to reliably predict a target immunogen represented by an antigen protein or an immunogen determinant of the target protein, and this immunogen determinant specifically binds to an antibody in the antigen protein to induce an immune response. It can be represented by the epitope that causes it. In addition, it was confirmed that in the prediction method of one embodiment, not only linear epitopes but also structural epitopes can be reliably predicted even when information on the three-dimensional structure of a protein is lacking.
따라서, 일 구현예의 예측 방법은 미지의 항원 단백질 등에서 기본적인 서열 정보만으로도 항원 결정기 등 면역원 결정부를 보다 신뢰성 있게 예측하여, 면역 기반 치료제 또는 치료 방법의 보다 효과적인 개발에 기여할 수 있다. Accordingly, the prediction method of one embodiment can more reliably predict immunogenic determinants, such as antigenic determinants, in unknown antigen proteins, etc., using only basic sequence information, thereby contributing to the more effective development of immune-based therapeutics or treatment methods.
한편, 발명의 다른 구현예에 따르면, 상술한 면역원 결정부 뿐만 아니라, 항체 등 면역 단백질 또는 면역 세포 내에서, 상기 항원 등 면역원과 면역 반응을 일으키는 면역원 결합부(예를 들어, 항원 결합부; paratope)를 예측하는 방법이 제공된다. 이러한 다른 구현예의 예측 방법은, 단백질에 관한 제 1 데이터베이스를 기초로, 각 단백질에 포함된 토큰(token)화된 단위 서열별로 마스킹(masking)하면서 양 방향 인공 신경망 모델 학습을 진행하여, 단백질의 단위 서열별 기능 및 배열을 사전 학습하는 단계;Meanwhile, according to another embodiment of the invention, in addition to the above-described immunogen-determining portion, an immunogen-binding portion (e.g., antigen-binding portion; paratope) that causes an immune response with an immunogen, such as the antigen, within an immune protein such as an antibody or an immune cell. ) is provided. The prediction method of this other embodiment is based on a first database on proteins, and proceeds with learning a two-way artificial neural network model while masking each tokenized unit sequence contained in each protein, to determine the unit sequence of the protein. Pre-learning star features and arrangements;
상호 결합된 면역원 폴리펩타이드 및 면역 단백질의 복합체에 관한 제 3 데이터베이스를 기초로, 각 복합체에 포함된 토큰화된 단위 서열별로 면역원 결합부 여부에 따라 분류하면서 양 방향 인공 신경망 학습을 진행하여, 상기 면역 단백질의 단위 서열별로 상기 면역원 폴리펩타이드와 면역 반응을 일으키는 면역원 결합부(immunogen binding site)의 정보를 학습하는 단계; 및 Based on a third database on complexes of mutually bound immunogen polypeptides and immune proteins, bidirectional artificial neural network learning is performed while classifying each tokenized unit sequence included in each complex according to whether it is an immunogen binding site, and the immune Learning information about the immunogen binding site that causes an immune response with the immunogen polypeptide for each protein unit sequence; and
학습된 인공 신경망을 이용하여, 타겟 면역 단백질 또는 타겟 면역 세포에서 면역원 결합부를 예측하는 단계를 포함할 수 있다. It may include predicting an immunogen binding site in a target immune protein or target immune cell using a learned artificial neural network.
참고로, 이러한 다른 구현예에 따른 면역원 결합부 예측 방법에서 일 구현예와 구분되는 면역원 결합부 학습 단계의 개략적인 모식도가 도 2에 도시되어 있다. 상기 다른 구현예의 예측 방법에서, 상기 제 1 데이터베이스를 기초로 하는 사전 학습 단계는 이미 상술한 일 구현예의 예측 방법과 동일하게 진행할 수 있으므로, 이에 관한 추가적인 설명은 생략하기로 한다. For reference, a schematic diagram of the immunogen binding site learning step in the immunogen binding site prediction method according to this other embodiment, which is distinct from one embodiment, is shown in FIG. 2. In the prediction method of the other embodiment, the dictionary learning step based on the first database may be performed in the same manner as the prediction method of the above-described embodiment, and therefore, further description thereof will be omitted.
한편, 상기 다른 구현예의 예측 방법에서는, 면역원 결합부의 학습 단계를 위해, 상술한 제 2 데이터베이스 대신 상호 결합된 면역원 폴리펩타이드 및 면역 단백질의 복합체에 관한 제 3 데이터베이스를 사용한다. 보다 구체적으로, 상기 제 3 데이터베이스는 상기 항원 등 면역원 폴리펩타이드, 상기 항체 등 면역 단백질 및 이들이 상호 결합된 복합체의 서열 또는 구조 등에 관한 데이터베이스가 될 수 있으며, 상기 면역원 폴리펩타이드에 포함된 면역원 결정부에 관한 정보 및 상기 면역 단백질에 포함된 면역원 결합부에 관한 정보를 함께 포함될 수 있다. Meanwhile, in the prediction method of another embodiment, for the learning step of the immunogen binding portion, a third database on the complex of mutually bound immunogen polypeptides and immune proteins is used instead of the above-described second database. More specifically, the third database may be a database about the sequence or structure of immunogen polypeptides such as the antigen, immune proteins such as the antibody, and complexes in which they are bound to each other, and the immunogen determinant contained in the immunogen polypeptide. Information about the immune protein and information about the immunogen binding part contained in the immune protein may be included together.
보다 구체적인 예에서, 상기 제 3 데이터베이스는 상기 면역원 폴리펩타이드, 상기 면역 단백질 또는 이들의 복합체에 관하여, 이들 각각의 서열 또는 구조, 상기 면역원 폴리펩타이드에 포함된 면역원 결정부의 서열 또는 결합 위치, 상기 면역 단백질에 포함된 면역원 결합부의 서열 또는 결합 위치에 관한 정보를 포함하거나, 이들 모두에 관한 정보를 포함할 수 있다. 이러한 제 3 데이터베이스의 일 예로는, EpiPred (Krawczyk K, Liu X, Baker T, Shi J, Deane CM. Improving B-Cell Epitope Prediction and its Application to Global Antibody-Antigen Docking. Bioinformatics (2014) 30:2288-94), Docking Benchmarking Dataset (DBD) v5 (Vreven T, Moal IH, Vangone A, Pierce BG, Kastritis PL, Torchala M, et al. Updates to the Integrated Protein-Protein Interaction Benchmarks: Docking Benchmark Version 5 and Affinity Benchmark Version 2. J Mol Biol (2015) 427:3031-41) 또는 “Daberdaku S, Ferrari C (2019) Antibody interface prediction with 3D Zernike descriptors and SVM. Bioinformatics 35:1870-1876” 등을 통해 알려진 데이터베이스 등을 들 수 있다. In a more specific example, the third database relates to the immunogenic polypeptide, the immune protein, or a complex thereof, their respective sequence or structure, the sequence or binding site of the immunogenic determinant included in the immunogenic polypeptide, and the immune protein. It may include information about the sequence or binding site of the immunogen binding portion included in, or it may include information about all of them. An example of such a third database is EpiPred (Krawczyk K, Liu 94), Docking Benchmarking Dataset (DBD) v5 (Vreven T, Moal IH, Vangone A, Pierce BG, Kastritis PL, Torchala M, et al. Updates to the Integrated Protein-Protein Interaction Benchmarks: Docking Benchmark Version 5 and Affinity Benchmark Version 2. J Mol Biol (2015) 427:3031-41) or “Daberdaku S, Ferrari C (2019) Antibody interface prediction with 3D Zernike descriptors and SVM. Known databases such as “Bioinformatics 35:1870-1876”, etc.
한편, 상기 면역원 결합부 학습 단계에서는, 도 2에 도시된 바와 같이, 상기 제 3 데이터베이스의 면역원 폴리펩타이드 및 면역 단백질에 각각 포함된 아미노산 서열을 일정 길이를 갖는 복수의 단위 서열로 구분하여 토큰화할 수 있다. 이러한 토큰화는, 예를 들어, 면역원 폴리펩타이드의 항원 결정기 등 면역원 결정부와, 면역 단백질의 항원 결합부 등 면역원 결합부에 각각 대응하는 일정 길이의 아미노산 단위 서열별로 이루어질 수 있고, 이를 통해 면역원 폴리펩타이드 및 면역 단백질의 각 아미노산 서열로부터 복수의 토큰이 생성될 수 있다. Meanwhile, in the immunogen binding site learning step, as shown in FIG. 2, the amino acid sequences included in the immunogen polypeptide and immune protein of the third database can be divided into a plurality of unit sequences with a certain length and tokenized. there is. For example, this tokenization can be done for each amino acid unit sequence of a certain length corresponding to an immunogen determinant, such as an antigenic determinant of an immunogen polypeptide, and an immunogen binding portion, such as an antigen binding portion of an immune protein. Multiple tokens can be generated from each amino acid sequence of the peptide and immune protein.
이때, 상기 면역원 폴리펩타이드 및/또는 면역 단백질에서, 각각의 양 에지(edge)에 대응하는 토큰화된 단위 서열에는 고유의 분류 식별자(classification identifier; 예를 들어, 도 2의 “CLS”, “SEP” 등 참조)가 부여되어 각각의 임베딩 벡터로 산출될 수 있고, 상기 면역원 폴리펩타이드 및 면역 단백질의 임베딩 벡터가 상기 에지에서 서로 연결된(concatenated) 상태로 입력되어 이후의 인공 신경망 학습이 진행될 수 있다, At this time, in the immunogenic polypeptide and/or immune protein, the tokenized unit sequence corresponding to each positive edge has a unique classification identifier (e.g., “CLS”, “SEP” in FIG. 2). ”, etc.) can be assigned and calculated as each embedding vector, and the embedding vectors of the immunogen polypeptide and immune protein are input in a concatenated state at the edge, so that subsequent artificial neural network learning can proceed.
이때, 상기 임베딩 벡터에서 상기 면역원 폴리펩타이드 및 면역 단백질이 연결되는 순서는 특히 제한되지 않으나, 효과적인 인공 신경망 학습을 위해 상기 면역원 폴리펩타이드 및 면역 단백질이 일정한 순서로 연결된 임베딩 벡터가 입력되어 학습이 이루어짐이 적절하다. At this time, the order in which the immunogen polypeptide and immune protein are connected in the embedding vector is not particularly limited, but for effective artificial neural network learning, an embedding vector in which the immunogen polypeptide and immune protein are connected in a certain order is input and learning is performed. It is appropriate.
이와 같이, 면역원 폴리펩타이드 및/또는 면역 단백질에 관한 데이터가 고유 분류 식별자로 구분된 상태로 입력되어 인공 신경망 학습이 진행됨에 따라, 다른 구현예의 예측 방법으로, 면역 단백질의 면역원 결합부 뿐만 아니라 면역원의 면역원 결정부가 함께 예측될 수 있다. In this way, as the data regarding the immunogenic polypeptide and/or immune protein is input in a state separated by a unique classification identifier and artificial neural network learning progresses, in another embodiment of the prediction method, not only the immunogen binding portion of the immune protein but also the immunogen. The immunogenic determinants can be predicted together.
상기 면역원 결합부 학습 단계에서는, 상기 토큰화된 복수의 단위 서열 주위의 양 방향을 따라 인공 신경망 학습을 진행할 수 있다. 이러한 양 방향 인공 신경망 학습 과정에서, 각 단위 서열별로 면역원 결합부(또는 이와 결합되는 면역원 결정부)에 해당하거나 이러한 면역원 결합부 등이 존재하는지 여부를 예측 및 분류하여 데이터로 출력할 수 있다(예를 들어, 도 2에서 면역원 결합부를 예측한 후, 그 예측 데이터를 “0” 또는 “1” 등으로 분류하여 출력). 이때, 상기 면역원 결합부와 결합되는 면역원 결정부 또한 상기 고유의 분류 식별자 등에 의해 구분되어 그 예측 결과가 출력될 수 있다. In the immunogen binding site learning step, artificial neural network learning may be performed along both directions around the plurality of tokenized unit sequences. In this two-way artificial neural network learning process, it is possible to predict and classify whether each unit sequence corresponds to an immunogen-binding portion (or an immunogen-determining portion bound thereto) or whether such an immunogen-binding portion, etc. exists, and output it as data (e.g. For example, after predicting the immunogen binding site in Figure 2, the predicted data is classified as “0” or “1” and output). At this time, the immunogen determination part that is combined with the immunogen binding part may also be classified by the unique classification identifier, etc., and the prediction result may be output.
이러한 면역원 결합부(및/또는 면역원 결정부) 예측 결과는 제 3 데이터베이스로부터 구분된 테스트 데이터셋을 기초로 그 정확성이 확인 및 검증되어 피드백될 수 있다. 이와 같이, 토큰화된 단위 서열이 면역원 결합부를 포함하는지 예측하고, 그 예측 결과의 정확성을 확인, 검증 및 피드백하는 과정을 통해, 항체 등 면역 단백질 내에서 면역원 결합부의 존재, 위치 및 배열 등의 정보를 신뢰성 있게 예측하는 예측 모델이 도출될 수 있다. The accuracy of this immunogen binding site (and/or immunogen determining portion) prediction result can be confirmed and verified based on a test dataset separated from a third database and fed back. In this way, through the process of predicting whether the tokenized unit sequence contains an immunogen binding site and confirming, verifying, and feeding back the accuracy of the prediction result, information such as the presence, location, and arrangement of the immunogen binding site within immune proteins such as antibodies A prediction model that reliably predicts can be derived.
이렇게 학습된 인공 신경망 또는 상기 면역원 결합부 예측 모델을 기초로, 미지의 타겟 면역 단백질 또는 타겟 면역 세포의 서열 정보 등을 입력하여, 이러한 항체 등 면역 단백질 내에서 상기 면역원 결합부의 존재 여부, 위치 또는 서열 등을 신뢰성 있게 예측할 수 있다. 더 나아가, 상기 다른 구현예의 예측 방법에서는, 상기 제 3 데이터베이스에서 면역 단백질 뿐 아니라 면역원 폴리펩타이드에 관한 데이터가 고유 분류 식별자에 의해 구분되어 입력된 상태로 인공 신경망 학습이 진행되므로, 상기 면역 단백질 내의 면역원 결합부 뿐만 아니라 이와 결합되는 면역원 내의 면역원 결정부 역시 추가 예측될 수 있다. Based on the artificial neural network learned in this way or the immunogen binding site prediction model, sequence information of the unknown target immune protein or target immune cell is input, and the presence, location or sequence of the immunogen binding site within the immune protein such as an antibody is determined. etc. can be predicted reliably. Furthermore, in the prediction method of the other embodiment, artificial neural network learning is performed in the third database with data on immunogen polypeptides as well as immune proteins classified by unique classification identifiers, so that the immunogen in the immune protein Not only the binding site, but also the immunogen determining region within the immunogen that binds to it can be further predicted.
상술한 면역원 결합부 학습 단계에 있어서도, 이미 상술한 일 구현예의 방법에서 면역원 결정부 학습 단계와 유사하게, 토큰화 모듈, 분류 모듈, 학습 모듈, 예측 정확도 연산 모듈 및 예측 모델 생성 모듈을 포함한 예측 모델 생성 장치가 사용되어 인공 신경망 학습이 진행될 수 있다. In the above-described immunogen binding site learning step, similar to the immunogen determination portion learning step in the method of one embodiment already described above, a prediction model including a tokenization module, a classification module, a learning module, a prediction accuracy calculation module, and a prediction model generation module. A generation device may be used to conduct artificial neural network learning.
한편, 상술한 다른 구현예의 예측 방법에 따르면, 항체 단백질로 대표되는 타겟 면역 단백질의 면역원 결합부와, 추가적으로 항원 단백질로 대표되는 타겟 면역원 등의 면역원 결정부가 신뢰성 있게 예측될 수 있다. 이때, 상기 면역원 결합부는 상기 항체 단백질에서 항원의 항원 결정기(epitope)와 특이적으로 결합하여 면역 반응을 일으키는 항원 결합부(paratope)로 대표될 수 있다. Meanwhile, according to the prediction method of another embodiment described above, the immunogen binding portion of the target immune protein represented by an antibody protein and the immunogen determining portion such as the target immunogen represented by an additional antigen protein can be reliably predicted. At this time, the immunogen-binding portion may be represented by an antigen-binding portion (paratope) that specifically binds to the epitope of the antigen in the antibody protein and causes an immune response.
따라서, 다른 구현예의 예측 방법은 미지의 항체 및/또는 항원 단백질 등에서 기본적인 서열 정보만으로도 항원 결합부 등 면역원 결합부와, 항원 결정기 등 면역원 결정부를 보다 신뢰성 있게 예측하여, 면역 기반 치료제 또는 치료 방법의 보다 효과적인 개발에 기여할 수 있다.Accordingly, the prediction method of another embodiment more reliably predicts the immunogen-binding portion, such as the antigen-binding portion, and the immunogen-determining portion, such as the antigenic determinant, using only basic sequence information in an unknown antibody and/or antigen protein, etc., thereby providing a more reliable method of predicting an immune-based therapeutic agent or treatment method. It can contribute to effective development.
이하, 발명의 바람직한 실시예 및 이에 대비되는 비교예 등을 기재한다. 그러나 하기 실시예는 발명의 바람직한 일 예일뿐 발명이 이에 한정되는 것은 아니다.Hereinafter, preferred embodiments of the invention and comparative examples are described. However, the following examples are only preferred examples of the invention and the invention is not limited thereto.
실시예 1: 면역원 결정부의 예측 신뢰성 평가 Example 1: Evaluation of prediction reliability of immunogen determinant
먼저, 사전 학습 단계를 위한 제 1 데이터베이스로는, “Bairoch, A., and R. Apweiler. 1996. “The SWISS-PROT Protein Sequence Data Bank and Its New Supplement TREMBL.” Nucleic Acids Research 24 (1): 21-25”을 통해 알려진 Swiss-Prot database를 사용하였다. 이러한 데이터베이스는 56만개 이상의 단백질의 기능, 도메인 구조, 변이 및 서열 등에 대한 정보를 포함하고 있다. 이러한 제 1 데이터베이스로부터 단백질 서열 등에 대한 데이터를 추출하고, 이러한 데이터를 6 : 2 : 2의 비율로 학습 데이터셋, 검증 데이터셋 및 테스트 데이터셋으로 구분하고, 이를 기초로 도 1의 “A”에 기재된 사전 학습 단계를 진행하였다. First, the first database for the pre-learning step is “Bairoch, A., and R. Apweiler. 1996. “The SWISS-PROT Protein Sequence Data Bank and Its New Supplement TREMBL.” The Swiss-Prot database known through “Nucleic Acids Research 24 (1): 21-25” was used. This database contains information on the function, domain structure, mutation, and sequence of more than 560,000 proteins. Data on protein sequences, etc. are extracted from this first database, and these data are divided into a learning dataset, a validation dataset, and a test dataset at a ratio of 6:2:2, and based on this, “A” in Figure 1 The described pre-learning steps were performed.
또한, 면역원 결정부 학습 단계를 위한 제 2 데이터베이스로는 선형 항원 결정기에 관한 것 또는 입체구조 항원 결정기에 관한 것을 구분하여 사용하였다. 먼저, 선형 항원 결정기에 관한 제 2 데이터베이스로는, 항체 및 항원 결정기가 구분된 “Vita, Randi, Swapnil Mahajan, James A. Overton, Sandeep Kumar Dhanda, Sheridan Martini, Jason R. Cantrell, Daniel K. Wheeler, Alessandro Sette, and Bjoern Peters. 2019. “The Immune Epitope Database (IEDB): 2018 Update.” Nucleic Acids Research 47 (D1): D339-43”에 공지된 데이터베이스를 사용하였다. 또, 입체구조 항원결정기에 관한 제 2 데이터베이스로는, 단백질 데이터 뱅크(Protein Data Bank; PDB)로부터 일부 항원에 관한 데이터를 추출하여 사용하였다. In addition, as the second database for the immunogen determinant learning step, those related to linear antigenic determinants or those related to three-dimensional structural antigenic determinants were used. First, the second database on linear epitopes is “Vita, Randi, Swapnil Mahajan, James A. Overton, Sandeep Kumar Dhanda, Sheridan Martini, Jason R. Cantrell, Daniel K. Wheeler, Alessandro Sette, and Bjoern Peters. 2019. “The Immune Epitope Database (IEDB): 2018 Update.” A known database in “Nucleic Acids Research 47 (D1): D339-43” was used. Additionally, as a second database on three-dimensional structural epitopes, data on some antigens were extracted from the Protein Data Bank (PDB) and used.
이러한 데이터베이스로부터 추출된 데이터를 8 : 2의 비율로 학습 데이터셋과, 테스트 데이터셋으로 구분하고, 학습 데이터셋에 대해서는 cross validation 기법에 의한 교차 검증이 함께 진행되었다. 위 구분된 데이터를 기초로 도 1의 “B”에 기재된 면역원 결정부 학습 단계를 진행하였다. 위 과정을 통해, 사전 학습 단계 및 면역원 결정부 학습 단계를 진행한 후, 타겟 면역원의 항원 결정기(선형 항원 결정기: 표 1 또는 입체구조 항원 결정기: 표 2)를 예측하고, 그 예측 결과의 신뢰성을 통계적으로 평가하여 하기 표 1 및 2에 각각 나타내었다. 이때, 신뢰성을 평가한 통계적 파라미터는 “https://jennainsight.tistory.com/entry/F1-Score-Roc%EA%B3%A1%EC%84%A0-Auc-%EA%B3%84%EC%82%B0%EB%B0%A9%EB%B2%95-scikit-learn-%EC%BD%94%EB%93%9C%EB%A1%9C-%EA%B5%AC%ED%98%84%ED%95%98%EA%B8%B0” 등을 통해 공지된 방법으로 산출하였으며, 각 산출된 통계적 파라미터, 특히, AUC가 높을수록 예측 결과의 신뢰성이 높은 것으로 평가하였다. The data extracted from this database was divided into a training dataset and a test dataset at a ratio of 8:2, and cross-validation using the cross validation technique was performed on the training dataset. Based on the above classified data, the immunogen determination part learning step shown in “B” in Figure 1 was performed. Through the above process, after performing the pre-learning step and immunogen determinant learning step, the antigenic determinant (linear antigenic determinant: Table 1 or three-dimensional antigenic determinant: Table 2) of the target immunogen is predicted, and the reliability of the prediction result is verified. Statistical evaluation was performed and is shown in Tables 1 and 2 below, respectively. At this time, the statistical parameters that evaluated reliability are “https://jennainsight.tistory.com/entry/F1-Score-Roc%EA%B3%A1%EC%84%A0-Auc-%EA%B3%84%EC %82%B0%EB%B0%A9%EB%B2%95-scikit-learn-%EC%BD%94%EB%93%9C%EB%A1%9C-%EA%B5%AC%ED%98 %84%ED%95%98%EA%B8%B0”, etc., was calculated using a known method, and the higher each calculated statistical parameter, especially the AUC, the higher the reliability of the prediction results.
이러한 예측 결과의 신뢰성 평가 결과는, 상기 실시예 1과, 실시예 1에서 사전 학습 단계가 생략된 비교예 1 및 기존의 예측 방법이 적용된 추가 비교예 2~15를 상호 비교하여 나타내었다. 참고로, 비교예 2~15의 기존 예측 방법은, 표 1 및 2의 각 하단에 정리된 문헌에 기재된 방법에 따라 항원 결정기를 예측한 후, 그 예측 결과의 신뢰성을 평가하였다. The reliability evaluation results of these prediction results were shown by comparing Example 1, Comparative Example 1 in which the pre-learning step was omitted in Example 1, and Additional Comparative Examples 2 to 15 in which the existing prediction method was applied. For reference, the existing prediction methods of Comparative Examples 2 to 15 predicted antigenic determinants according to the methods described in the literature summarized at the bottom of Tables 1 and 2, and then evaluated the reliability of the prediction results.
참고로, 비교예 2~15는 기존에 항원 결정기 등을 예측하기 위해 적용 가능한 것으로 알려진 학습 및 예측 모델로서, 대표적으로 비교예 3 및 5의 예측 모델은 다음과 같다: For reference, Comparative Examples 2 to 15 are learning and prediction models known to be applicable to existing antigenic determinants, etc., and the representative prediction models of Comparative Examples 3 and 5 are as follows:
- Random Forest Classifier (비교예 3): tree-based 모델로 각 단계에서 최적의 선택을 내리는 모델임. 데이터 샘플링을 통해 많은 모델들을 만들며, 최종적으로 투표를 통해 가장 많은 표를 받은 선택을 내리는 전형적인 분류에 의한 예측 모델;- Random Forest Classifier (Comparative Example 3): A tree-based model that makes the optimal choice at each step. A typical classification-based prediction model that creates many models through data sampling and ultimately selects the one with the most votes through voting;
- Gradient Boosting classifier (비교예 5): 상기 tree-based 모델에 부스팅 기능을 추가한 것으로, 모델이 잘못 예측한 데이터들을 그 다음 모델에 반영하여, 다시 옳게 예측하도록 만드는 방법론. - Gradient Boosting classifier (Comparative Example 5): A method that adds a boosting function to the tree-based model above and reflects data incorrectly predicted by the model into the next model to make the correct prediction again.
* 비교예 2~12의 예측 방법(출처): * Prediction method for Comparative Examples 2 to 12 (source):
- 비교예 2:- Comparative Example 2:
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html
- 비교예 3:- Comparative Example 3:
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html
- 비교예 4: - Comparative Example 4:
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html
- 비교예 5: - Comparative Example 5:
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html
- 비교예 6: - Comparative Example 6:
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html
- 비교예 7: - Comparative Example 7:
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
- 비교예 8: - Comparative Example 8:
https://scikit-learn.org/stable/modules/generated/sklearn.discriminant_analysis.LinearDiscriminantAnalysis.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.discriminant_analysis.LinearDiscriminantAnalysis.html
- 비교예 9: - Comparative Example 9:
https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html
- 비교예 10: - Comparative Example 10:
http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.htmlhttp://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html
- 비교예 11: - Comparative Example 11:
https://scikit-learn.org/stable/modules/generated/sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis.html
- 비교예 12: - Comparative Example 12:
https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html
* 비교예 13~15의 예측 방법(출처): * Prediction method of Comparative Examples 13 to 15 (source):
- 비교예 13: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5570230/- Comparative Example 13: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5570230/
- 비교예 14: https://pubmed.ncbi.nlm.nih.gov/23667458/- Comparative Example 14: https://pubmed.ncbi.nlm.nih.gov/23667458/
- 비교예 15: https://pubmed.ncbi.nlm.nih.gov/19646261/- Comparative Example 15: https://pubmed.ncbi.nlm.nih.gov/19646261/
상기 표 1 및 2를 참고하면, 실시예 1의 항원 결정기 예측 방법은 사전 학습 단계를 생략한 비교예 1 뿐만 아니라, 기존에 알려진 비교예 2~15의 어떠한 예측 방법, 예를 들어, 기존에 항원 결정기 등의 예측에 사용되던 tree-based 모델에 해당하는 비교예 3 및 5 등의 예측 방법에 비해서도, 신뢰성 높게 항원 등 면역원 내의 선형 항원 결정기 및 입체구조 항원 결정기를 예측할 수 있음이 확인되었다. Referring to Tables 1 and 2 above, the antigenic determinant prediction method of Example 1 is not only Comparative Example 1, which omits the prior learning step, but also any of the previously known prediction methods of Comparative Examples 2 to 15, for example, using existing antigens. It was confirmed that linear and three-dimensional antigenic determinants within immunogens such as antigens can be predicted with high reliability compared to prediction methods such as Comparative Examples 3 and 5, which are tree-based models used to predict determinants.
이는 단계별 분류 및 선택을 통한 신뢰성 있는 예측을 위해 상당한 데이터를 필요로 하는 비교예 3 및 5 등의 기존 tree-based 모델 등과는 달리, 실시예의 예측 방법은 양 방향 인공 신경망 학습에 기반한 사전 학습 및 면역원 결정부 학습 단계에 의해 충분치 않은 데이터를 이용하여도 예측 신뢰성을 보다 높일 수 있기 때문으로 보인다. Unlike existing tree-based models such as Comparative Examples 3 and 5, which require considerable data for reliable prediction through step-by-step classification and selection, the prediction method in the embodiment uses dictionary learning based on bidirectional artificial neural network learning and immunogen This appears to be because prediction reliability can be improved even when insufficient data is used through the decision learning stage.
실시예 2: 면역원 결합부의 예측 신뢰성 평가 Example 2: Evaluation of prediction reliability of immunogen binding site
먼저, 사전 학습 단계는 실시예 1과 동일하게 진행하였다. First, the pre-learning step was performed in the same way as in Example 1.
또한, 면역원 결합부 학습 단계를 위한 주된 제 3 데이터베이스로서, “Daberdaku S, Ferrari C (2019) Antibody interface prediction with 3D Zernike descriptors and SVM. Bioinformatics 35:1870-1876”ope dataset source: Processed by Daberdaku and Ferrari (2019)”에 공지된 항원 및 항체의 복합체에 관한 데이터베이스의 복합체 서열을 입력 데이터로 사용하여, 이하에 기술된 방법으로 항원 결합부의 예측을 진행하였다. Additionally, as the main third database for the immunogen binding site learning step, “Daberdaku S, Ferrari C (2019) Antibody interface prediction with 3D Zernike descriptors and SVM. Bioinformatics 35:1870-1876 Using the complex sequence of the database on complexes of antigens and antibodies known in “ope dataset source: Processed by Daberdaku and Ferrari (2019)” as input data, the antigen-binding portion was identified by the method described below. The prediction was made.
한편, 본 실시예에서 추가 제 3 데이터베이스로서, EpiPred (Krawczyk K, Liu X, Baker T, Shi J, Deane CM. Improving B-Cell Epitope Prediction and its Application to Global Antibody-Antigen Docking. Bioinformatics (2014) 30:2288-94) 및 Docking Benchmarking Dataset (DBD) v5 (Vreven T, Moal IH, Vangone A, Pierce BG, Kastritis PL, Torchala M, et al. Updates to the Integrated Protein-Protein Interaction Benchmarks: Docking Benchmark Version 5 and Affinity Benchmark Version 2. J Mol Biol (2015) 427:3031-41)의 항원 및 항체의 복합체에 관한 데이터베이스의 복합체 서열을 입력 데이터로 함께 사용하였다. 이는 본 실시예의 방법에 따라 면역원 결합부 뿐만 아니라, 항원 결정기 등 면역원 결정부를 함께 예측하기 위해 사용되었다. Meanwhile, as an additional third database in this example, EpiPred (Krawczyk K, Liu :2288-94) and Docking Benchmarking Dataset (DBD) v5 (Vreven T, Moal IH, Vangone A, Pierce BG, Kastritis PL, Torchala M, et al. Updates to the Integrated Protein-Protein Interaction Benchmarks: Docking Benchmark Version 5 and The complex sequence from the database on complexes of antigens and antibodies (Affinity Benchmark Version 2. J Mol Biol (2015) 427:3031-41) was used as input data. This was used to predict not only the immunogen binding site, but also immunogen determinants such as antigenic determinants according to the method of this example.
한편, 상기 제 3 데이터베이스로부터 추출된 데이터를 8 : 2의 비율로 학습 데이터셋과, 테스트 데이터셋으로 구분하고, 실시예 1과 마찬가지로 학습 데이터셋에 대해서는 cross validation 기법에 의한 교차 검증이 함께 진행되었다. 위 구분된 데이터를 기초로 도 2에 기재된 면역원 결합부 학습 단계를 진행하였다. 위 과정을 통해, 사전 학습 단계 및 면역원 결합부 학습 단계를 진행한 후, 타겟 항체의 항원 결합부를 예측하고, 그 예측 결과의 신뢰성을 통계적으로 평가하여 하기 표 3에 나타내었다. 이때, 신뢰성을 평가한 통계적 파라미터는 “https://jennainsight.tistory.com/entry/F1-Score-Roc%EA%B3%A1%EC%84%A0-Auc-%EA%B3%84%EC%82%B0%EB%B0%A9%EB%B2%95-scikit-learn-%EC%BD%94%EB%93%9C%EB%A1%9C-%EA%B5%AC%ED%98%84%ED%95%98%EA%B8%B0” 등을 통해 공지된 방법으로 산출하였으며, 각 산출된 통계적 파라미터, 특히, AUC-ROC가 높을수록 예측 결과의 신뢰성이 높은 것으로 평가하였다. Meanwhile, the data extracted from the third database was divided into a learning dataset and a test dataset at a ratio of 8:2, and cross-validation using the cross validation technique was performed on the learning dataset as in Example 1. . Based on the above classified data, the immunogen binding site learning step shown in Figure 2 was performed. Through the above process, after performing the pre-learning step and the immunogen binding site learning step, the antigen-binding site of the target antibody was predicted, and the reliability of the prediction result was statistically evaluated, which is shown in Table 3 below. At this time, the statistical parameters that evaluated reliability are “https://jennainsight.tistory.com/entry/F1-Score-Roc%EA%B3%A1%EC%84%A0-Auc-%EA%B3%84%EC %82%B0%EB%B0%A9%EB%B2%95-scikit-learn-%EC%BD%94%EB%93%9C%EB%A1%9C-%EA%B5%AC%ED%98 %84%ED%95%98%EA%B8%B0”, etc., was calculated using a known method, and the higher each calculated statistical parameter, especially AUC-ROC, the higher the reliability of the prediction results.
이러한 예측 결과의 신뢰성 평가 결과는, 상기 실시예 2와, 기존의 예측 방법이 적용된 추가 비교예 16~17을 상호 비교하여 나타내었다. 참고로, 비교예 16~17의 기존 예측 방법은, 표 3의 하단에 정리된 문헌에 기재된 방법에 따라 항원 결합부를 예측한 후, 그 예측 결과의 신뢰성을 평가하였다. The reliability evaluation results of these prediction results were shown by comparing Example 2 and Additional Comparative Examples 16 to 17 to which the existing prediction method was applied. For reference, the existing prediction method of Comparative Examples 16 to 17 predicted the antigen binding site according to the method described in the literature summarized at the bottom of Table 3, and then evaluated the reliability of the prediction result.
* 비교예 16~17의 예측 방법(출처): * Prediction method of Comparative Examples 16 to 17 (source):
- 비교예 16: https://pubmed.ncbi.nlm.nih.gov/24006373/- Comparative Example 16: https://pubmed.ncbi.nlm.nih.gov/24006373/
- 비교예 17: https://pubmed.ncbi.nlm.nih.gov/30395191/- Comparative Example 17: https://pubmed.ncbi.nlm.nih.gov/30395191/
상기 표 3을 참고하면, 실시예 3의 항원 결합부 예측 방법은 기존에 알려진 비교예 16~17의 예측 방법에 비해, 신뢰성 높게 항체 등 면역 단백질 내의 항원 결합부를 예측할 수 있음이 확인되었다. Referring to Table 3 above, it was confirmed that the antigen-binding site prediction method of Example 3 can predict antigen-binding sites within immune proteins such as antibodies with greater reliability than the previously known prediction methods of Comparative Examples 16 to 17.
Claims (21)
면역 단백질 또는 면역 세포가 특이적으로 인식 또는 결합하는 면역 반응 여부에 따라 구분된 면역원 및 비면역원 폴리펩타이드에 관한 제 2 데이터베이스를 기초로, 각 폴리펩타이드에 포함된 토큰화된 단위 서열별로 분류하면서 양 방향 인공 신경망 학습을 진행하여, 상기 폴리펩타이드의 단위 서열별로 면역 반응을 일으키는 면역원 결정부(immunogenic determinant)의 정보를 학습하는 단계; 및
학습된 인공 신경망을 이용하여, 타겟 면역원 또는 타겟 단백질의 면역원 결정부를 예측하는 단계를 포함하고,
상기 제 1 데이터베이스로는 Swiss-Prot database를 사용하는 면역원 결정부 예측 방법.
Based on the first database on proteins, a two-way artificial neural network model is learned while masking each tokenized unit sequence contained in each protein, and the function and arrangement of each unit sequence of the protein are pre-learned. step;
Based on a second database of immunogenic and non-immunogenic polypeptides classified according to whether immune proteins or immune cells specifically recognize or bind to the immune response, the amount is classified by the tokenized unit sequence contained in each polypeptide. Performing directional artificial neural network learning to learn information on immunogenic determinants that cause an immune response for each unit sequence of the polypeptide; and
Comprising the step of predicting an immunogenic determinant of a target immunogen or target protein using a learned artificial neural network,
A method for predicting immunogen determinants using the Swiss-Prot database as the first database.
The method of claim 1, wherein the pre-learning step includes dividing the amino acid sequence included in the protein into a plurality of unit sequences with a certain length and tokenizing them.
상기 마스킹된 단위 서열 주위의 양 방향을 따라 인공 신경망 모델 학습을 진행하여 각 단위 서열의 기능, 배열 또는 순서를 사전 학습하는 단계를 더 포함하는 면역원 결정부 예측 방법.
The method of claim 3, wherein the pre-learning step includes: masking some of the plurality of tokenized unit sequences; and
A method for predicting an immunogen determinant further comprising the step of pre-learning the function, arrangement, or order of each unit sequence by learning an artificial neural network model along both directions around the masked unit sequence.
상기 예측 결과의 정확성을 검증하여 피드백하는 단계를 포함하는 면역원 결정부 예측 방법.
The method of claim 4, wherein the artificial neural network model training step includes: predicting the masked unit sequence; and
A method for predicting an immunogen determinant comprising the step of verifying the accuracy of the prediction result and providing feedback.
The method of claim 1, wherein the second database includes information on immunogenic and non-immunogenic polypeptides that have been confirmed to cause or not cause an immune response with two or more immune proteins or immune cells through multiple experiments. method.
The method of claim 6, wherein the second database includes at least one type of information selected from the group consisting of continuous amino acid sequence information, non-contiguous amino acid sequence information, and three-dimensional structure information of the immunogenic and non-immunogenic polypeptides. method.
The method of claim 1, wherein the immunogen determinant learning step includes dividing the amino acid sequence included in the polypeptide into a plurality of unit sequences with a certain length and tokenizing them.
상기 예측 결과의 정확성을 검증하여 피드백하는 단계를 포함하는 면역원 결정부 예측 방법.
The method of claim 8, wherein the immunogen determining part learning step includes predicting and classifying in both directions whether an immunogen determining part exists for each of the plurality of tokenized unit sequences; and
A method for predicting an immunogen determinant comprising the step of verifying the accuracy of the prediction result and providing feedback.
The method of claim 9, wherein, from the immunogen determining portion learning step, the presence or absence of an immunogen determining portion for each unit sequence is predicted and classified, output and verified as data, and a prediction model of the immunogen determining portion is derived based on the output data. Immunogen crystal region prediction method.
The method of claim 1, wherein the first database or the second database relates to a protein or polypeptide having an amino acid sequence of a certain length or less and is pre-processed.
The method of claim 1 or 10, wherein the immunogen determinant prediction step is performed by inputting sequence or structure information of the target immunogen or target protein based on the learned artificial neural network or the immunogen determinant prediction model, A method for predicting immunogen determinants that predicts the presence, location, or sequence of immunogen determinants.
The method of claim 1, wherein the target immunogen or target protein is an antigen protein, and in the step of predicting the immunogen determinant, an immunogen determinant predicts an epitope in the antigen protein that specifically binds to an antibody and causes an immune response. Prediction method.
The method of claim 13, wherein in the step of predicting the immunogenic determinant, a linear epitope or a structural epitope is predicted.
상호 결합된 면역원 폴리펩타이드 및 면역 단백질의 복합체에 관한 제 3 데이터베이스를 기초로, 각 복합체에 포함된 토큰화된 단위 서열별로 면역원 결합부 여부에 따라 분류하면서 양 방향 인공 신경망 학습을 진행하여, 상기 면역 단백질의 단위 서열별로 상기 면역원 폴리펩타이드와 면역 반응을 일으키는 면역원 결합부(immunogen binding site)의 정보를 학습하는 단계; 및
학습된 인공 신경망을 이용하여, 타겟 면역 단백질 또는 타겟 면역 세포에서 면역원 결합부를 예측하는 단계를 포함하되,
상기 면역원 결합부 학습 단계에서, 상기 면역원 폴리펩타이드 및 면역 단백질의 양 에지(edge)에 대응하는 토큰화된 단위 서열에는 고유의 분류 식별자(classification identifier)가 부여되어 각각의 임베딩 벡터로 산출되고,
상기 면역원 폴리펩타이드 및 면역 단백질의 임베딩 벡터가 상기 에지에서 서로 연결된(concatenated) 상태로 입력되어 인공 신경망 학습이 진행되며,
상기 면역원 결합부 예측 단계에서는, 타겟 면역원의 면역원 결정부를 추가적으로 예측하는 면역원 결합부 예측 방법.
Based on the first database on proteins, a two-way artificial neural network model is learned while masking each tokenized unit sequence contained in each protein, and the function and arrangement of each unit sequence of the protein are pre-learned. step;
Based on a third database on complexes of mutually bound immunogen polypeptides and immune proteins, bidirectional artificial neural network learning is performed while classifying each tokenized unit sequence included in each complex according to whether it is an immunogen binding site, and the immune Learning information about the immunogen binding site that causes an immune response with the immunogen polypeptide for each protein unit sequence; and
Predicting an immunogen binding site in a target immune protein or target immune cell using a learned artificial neural network,
In the immunogen binding site learning step, the tokenized unit sequences corresponding to both edges of the immunogen polypeptide and immune protein are given a unique classification identifier and calculated as each embedding vector,
Embedding vectors of the immunogenic polypeptide and immune protein are input in a concatenated state at the edge, and artificial neural network learning is performed,
In the immunogen binding site prediction step, the immunogen binding site prediction method further predicts the immunogen determining portion of the target immunogen.
The method of claim 15, wherein the third database is related to the immunogen polypeptide, the immune protein, or a complex thereof, the respective sequence or structure, the sequence or binding site of the immunogenic determinant included in the immunogen polypeptide, and the immune protein. A method for predicting an immunogen binding site including information on the sequence or binding location of the immunogen binding site included in a protein.
The method of claim 15, wherein the immunogen binding site learning step includes dividing the amino acid sequences included in the immunogen polypeptide and the immune protein into a plurality of unit sequences with a certain length and tokenizing them. method.
상기 예측 결과의 정확성을 검증하여 피드백하는 단계를 포함하는 면역원 결합부 예측 방법.
The method of claim 17, wherein the immunogen binding site learning step includes predicting and classifying in both directions whether an immunogen binding site exists for each of the plurality of tokenized unit sequences; and
A method for predicting an immunogen binding site, comprising the step of verifying the accuracy of the prediction result and providing feedback.
The method of claim 15, wherein the target immune protein is an antibody protein, and in the immunogen binding part prediction step, an antigen binding part (paratope) that specifically binds to an epitope in the antibody protein and causes an immune response is predicted. Immunogen binding site prediction method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2023/002582 WO2023163518A1 (en) | 2022-02-25 | 2023-02-23 | Immunogenic determinant predicting method and immunogenic binding site predicting method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20220025194 | 2022-02-25 | ||
KR1020220025194 | 2022-02-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230127910A KR20230127910A (en) | 2023-09-01 |
KR102645477B1 true KR102645477B1 (en) | 2024-03-08 |
Family
ID=87975326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230023506A KR102645477B1 (en) | 2022-02-25 | 2023-02-22 | Prediction method of immunogenic determinant and immunogen binding site |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102645477B1 (en) |
-
2023
- 2023-02-22 KR KR1020230023506A patent/KR102645477B1/en active IP Right Grant
Non-Patent Citations (2)
Title |
---|
J. Cheng 외, "BERTMHC: improved MHC-peptide class II interaction prediction with transformer and multiple instance learning", Bioinformatics, 37(22), pp.4171-4179, 2021.06.07.* |
J. Leem 외, "Deciphering the language of antibodies using self-supervised learning", bioRxiv preprint, 2021.11.11. |
Also Published As
Publication number | Publication date |
---|---|
KR20230127910A (en) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Levy et al. | Diverse demonstrations improve in-context compositional generalization | |
Zhang et al. | Automated structure prediction of weakly homologous proteins on a genomic scale | |
Ibrahim et al. | Large CP phases and the cancellation mechanism in EDMs in SUSY, string, and brane models | |
CN112071361B (en) | Polypeptide TCR immunogenicity prediction method based on Bi-LSTM and Self-attribute | |
Skolnick et al. | Ab initio protein structure prediction via a combination of threading, lattice folding, clustering, and structure refinement | |
CN113762417B (en) | Method for enhancing HLA antigen presentation prediction system based on deep migration | |
EP3976083A1 (en) | Machine learning-based apparatus for engineering meso-scale peptides and methods and system for the same | |
CN114446389B (en) | Tumor neoantigen feature analysis and immunogenicity prediction tool and application thereof | |
CN116959581A (en) | Training method, device, equipment and storage medium for immunogenicity prediction model | |
Park et al. | EpiBERTope: a sequence-based pre-trained BERT model improves linear and structural epitope prediction by learning long-distance protein interactions effectively | |
US20230298692A1 (en) | Method, System and Computer Program Product for Determining Presentation Likelihoods of Neoantigens | |
Zeng et al. | Identifying B-cell epitopes using AlphaFold2 predicted structures and pretrained language model | |
KR102645477B1 (en) | Prediction method of immunogenic determinant and immunogen binding site | |
KR20220151388A (en) | A system for searching the new peptide | |
Standley et al. | Tertiary structure prediction of mixed α/β proteins via energy minimization | |
WO2024032909A1 (en) | Methods and systems for cancer-enriched motif discovery from splicing variations in tumours | |
CN113807468B (en) | HLA antigen presentation prediction method and system based on multi-mode depth coding | |
US20160232281A1 (en) | High-order sequence kernel methods for peptide analysis | |
WO2023163518A1 (en) | Immunogenic determinant predicting method and immunogenic binding site predicting method | |
Vullo et al. | Prediction of protein coarse contact maps | |
Kinjo et al. | Predicting secondary structures, contact numbers, and residue-wise contact orders of native protein structures from amino acid sequences using critical random networks | |
CN115798592A (en) | Training method of antigen presentation prediction model, prediction method, device and medium thereof | |
Wang et al. | Multilingual entity and relation extraction from unified to language-specific training | |
Fong et al. | Kernel-based logistic regression model for protein sequence without vectorialization | |
Raha et al. | Unseen Epitope-TCR Interaction Prediction based on Amino Acid Physicochemical Properties |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |