RU2020130420A - Gan-cnn для прогнозирования связывания мнс-пептид - Google Patents
Gan-cnn для прогнозирования связывания мнс-пептид Download PDFInfo
- Publication number
- RU2020130420A RU2020130420A RU2020130420A RU2020130420A RU2020130420A RU 2020130420 A RU2020130420 A RU 2020130420A RU 2020130420 A RU2020130420 A RU 2020130420A RU 2020130420 A RU2020130420 A RU 2020130420A RU 2020130420 A RU2020130420 A RU 2020130420A
- Authority
- RU
- Russia
- Prior art keywords
- mhc
- polypeptide
- positive
- gan
- computer
- Prior art date
Links
- 230000003993 interaction Effects 0.000 claims 42
- 238000000034 method Methods 0.000 claims 32
- 238000013527 convolutional neural network Methods 0.000 claims 28
- 108700028369 Alleles Proteins 0.000 claims 17
- 229920001184 polypeptide Polymers 0.000 claims 4
- 102000004196 processed proteins & peptides Human genes 0.000 claims 4
- 108090000765 processed proteins & peptides Proteins 0.000 claims 4
- 150000001413 amino acids Chemical class 0.000 claims 2
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 claims 1
- 102100028972 HLA class I histocompatibility antigen, A alpha chain Human genes 0.000 claims 1
- 102100028976 HLA class I histocompatibility antigen, B alpha chain Human genes 0.000 claims 1
- 102100028971 HLA class I histocompatibility antigen, C alpha chain Human genes 0.000 claims 1
- 108010075704 HLA-A Antigens Proteins 0.000 claims 1
- 108010058607 HLA-B Antigens Proteins 0.000 claims 1
- 108010052199 HLA-C Antigens Proteins 0.000 claims 1
- 108700018351 Major Histocompatibility Complex Proteins 0.000 claims 1
- 206010028980 Neoplasm Diseases 0.000 claims 1
- 125000003275 alpha amino acid group Chemical group 0.000 claims 1
- 239000000427 antigen Substances 0.000 claims 1
- 108091007433 antigens Proteins 0.000 claims 1
- 102000036639 antigens Human genes 0.000 claims 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 claims 1
- 108090000623 proteins and genes Proteins 0.000 claims 1
- 102000004169 proteins and genes Human genes 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 claims 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C99/00—Subject matter not provided for in other groups of this subclass
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Claims (53)
1. Реализуемый на компьютере способ обучения генеративно-состязательной сети (GAN), предусматривающий:
a. генерирование посредством генератора GAN все более точных положительных смоделированных данных до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные как положительные;
b. представление положительных смоделированных данных, положительных реальных данных и отрицательных реальных данных в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует каждый тип данных как положительный или отрицательный;
c. представление положительных реальных данных и отрицательных реальных данных CNN для генерирования оценок прогноза; и
d. определение на основании оценок прогноза того, обучена или не обучена GAN, и, когда GAN не обучена, повторение стадий a-c до тех пор, пока не будет выполнено определение на основании оценок прогноза того, что GAN обучена.
2. Реализуемый на компьютере способ по п. 1, где положительные смоделированные данные, положительные реальные данные и отрицательные реальные данные включают биологические данные.
3. Реализуемый на компьютере способ по п. 1, где положительные смоделированные данные включают положительные смоделированные данные взаимодействия полипептид-главный комплекс гистосовместимости класса I (MHC-I), положительные реальные данные включают положительные реальные данные взаимодействия полипептид-MHC-I, и отрицательные реальные данные включают отрицательные реальные данные взаимодействия полипептид-MHC-I.
4. Реализуемый на компьютере способ по п. 3, где генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как реальные, предусматривает:
e. генерирование посредством генератора GAN в соответствии с набором параметров GAN первого смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC;
f. объединение первого смоделированного набора данных с положительными реальными взаимодействиями полипептид-MHC-I для аллеля MHC и отрицательными реальными взаимодействиями полипептид-MHC-I для аллеля MHC для создания набора данных для обучения GAN;
g. определение с помощью дискриминатора в соответствии с решающей границей, является ли соответствующее взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN смоделированным положительным, реальным положительным или реальным отрицательным;
h. корректировку, основанную на точности определения при помощи дискриминатора, одного или более из набора параметров GAN или решающей границы; и
i. повторение стадий e-h до тех пор, пока не будет соблюден первый критерий останова.
5. Реализуемый на компьютере способ по п. 4, где представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует соответствующие данные взаимодействия полипептид-MHC-I как положительные или отрицательные, предусматривает:
j. генерирование посредством генератора GAN в соответствии с набором параметров GAN второго смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC;
k. объединение второго смоделированного набора данных, положительных реальных взаимодействий полипептид-MHC-I для аллеля MHC и отрицательных реальных взаимодействий полипептид-MHC-I для аллеля MHC для создания набора данных для обучения CNN;
l. представление набора данных для обучения CNN в сверточную нейронную сеть (CNN);
m. классификацию посредством CNN в соответствии с набором параметров CNN соответствующего взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN как положительного или отрицательного;
n. корректировку, основанную на точности классификации посредством CNN, одного или более из набора параметров CNN; и
o. повторение стадий l-n до тех пор, пока не будет соблюден второй критерий останова.
6. Реализуемый на компьютере способ по п. 5, где представление положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в CNN для генерирования оценок прогноза предусматривает:
классификацию посредством CNN в соответствии с набором параметров CNN соответствующего взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного.
7. Реализуемый на компьютере способ по п. 6, где определение на основании оценок прогноза того, обучена ли GAN, предусматривает определение точности классификации посредством CNN, при этом, когда точность классификации удовлетворяет третьему критерию останова, выведение GAN и CNN.
8. Реализуемый на компьютере способ по п. 6, где определение на основании оценок прогноза того, обучена ли GAN, предусматривает определение точности классификации посредством CNN, при этом, когда точность классификации не удовлетворяет третьему критерию останова, возвращение к стадии а.
9. Реализуемый на компьютере способ по п. 4, где параметры GAN включают одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.
10. Реализуемый на компьютере способ по п. 9, где тип аллеля включает один или более из HLA-A, HLA-B, HLA-C или их подтип.
11. Реализуемый на компьютере способ по п. 9, где длина аллеля составляет от приблизительно 8 до приблизительно 12 аминокислот.
12. Реализуемый на компьютере способ по п. 11, где длина аллеля составляет от приблизительно 9 до приблизительно 11 аминокислот.
13. Реализуемый на компьютере способ по п. 3, дополнительно предусматривающий:
представление набора данных в CNN, где набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I;
классификацию посредством CNN каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и
синтез полипептида из кандидатного взаимодействия полипептид-MHC-I, классифицируемого как положительное взаимодействие полипептид-MHC-I.
14. Полипептид, полученный посредством способа по п. 13.
15. Реализуемый на компьютере способ по п. 13, где полипептид представляет собой опухолеспецифический антиген.
16. Реализуемый на компьютере способ по п. 13, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем MHC.
17. Реализуемый на компьютере способ по п. 3, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем.
18. Реализуемый на компьютере способ по п. 17, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций.
19. Реализуемый на компьютере способ по п. 3, где генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, предусматривает оценку выражения градиентного спуска для генератора GAN.
20. Реализуемый на компьютере способ по п. 3, где генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, предусматривает:
итеративное выполнение дискриминатора GAN для увеличения возможности присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I, низкой вероятности положительным смоделированным данным взаимодействия полипептид-MHC-I и низкой вероятности отрицательным реальным данным взаимодействия полипептид-MHC-I; и
итеративное выполнение генератора GAN для увеличения вероятности того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.
21. Реализуемый на компьютере способ по п. 3, где представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует соответствующие данные взаимодействия полипептид-MHC-I как положительные или отрицательные, предусматривает:
выполнение процедуры свертки;
выполнение процедуры нелинейности (ReLU);
выполнение процедуры объединения или субдискретизации; и
выполнение процедуры классификации (полносвязный слой).
22. Реализуемый на компьютере способ по п. 1, где GAN включает глубокую сверточную GAN (DCGAN).
23. Реализуемый на компьютере способ по п. 8, где первый критерий останова включает оценку функции среднеквадратичной ошибки (MSE), второй критерий останова включает оценку функции среднеквадратичной ошибки (MSE), и третий критерий останова включает оценку функции области под кривой (AUC).
24. Реализуемый на компьютере способ по п. 3, где оценка прогноза представляет собой вероятность того, что положительные реальные данные взаимодействия полипептид-MHC-I классифицированы как положительные данные взаимодействия полипептид-MHC-I.
25. Реализуемый на компьютере способ по п. 1, где определение на основании оценок прогноза того, обучена ли GAN, предусматривает сравнение одной или более оценок прогноза с пороговым значением.
26. Реализуемый на компьютере способ по п. 1, дополнительно предусматривающий выведение GAN и CNN.
27. Устройство, выполненное с возможностью выполнения способа по любому из пп. 1-13 и 15-26.
28. Машиночитаемый носитель (CRM), выполненный с возможностью выполнения способа по любому из пп. 1-13 и 15-26.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862631710P | 2018-02-17 | 2018-02-17 | |
US62/631,710 | 2018-02-17 | ||
PCT/US2019/018434 WO2019161342A1 (en) | 2018-02-17 | 2019-02-18 | Gan-cnn for mhc peptide binding prediction |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2022120739A Division RU2022120739A (ru) | 2018-02-17 | 2019-02-18 | Gan-cnn для прогнозирования связывания mhc-пептид |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2020130420A true RU2020130420A (ru) | 2022-03-17 |
RU2020130420A3 RU2020130420A3 (ru) | 2022-03-17 |
RU2777926C2 RU2777926C2 (ru) | 2022-08-11 |
Family
ID=
Also Published As
Publication number | Publication date |
---|---|
AU2019221793A1 (en) | 2020-09-17 |
JP7459159B2 (ja) | 2024-04-01 |
KR20200125948A (ko) | 2020-11-05 |
AU2022221568A1 (en) | 2022-09-22 |
CA3091480A1 (en) | 2019-08-22 |
JP7047115B2 (ja) | 2022-04-04 |
JP2022101551A (ja) | 2022-07-06 |
KR20230164757A (ko) | 2023-12-04 |
EP3753022A1 (en) | 2020-12-23 |
WO2019161342A1 (en) | 2019-08-22 |
KR102607567B1 (ko) | 2023-12-01 |
US20190259474A1 (en) | 2019-08-22 |
AU2022221568B2 (en) | 2024-06-13 |
IL311528A (en) | 2024-05-01 |
CN112119464A (zh) | 2020-12-22 |
MX2020008597A (es) | 2020-12-11 |
IL276730B2 (en) | 2024-08-01 |
AU2019221793B2 (en) | 2022-09-15 |
IL276730A (en) | 2020-09-30 |
SG11202007854QA (en) | 2020-09-29 |
IL276730B1 (en) | 2024-04-01 |
JP2021514086A (ja) | 2021-06-03 |
RU2020130420A3 (ru) | 2022-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
IL311528A (en) | GAN-CNN for MHC peptide binding prediction | |
KR102513089B1 (ko) | 소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치 | |
US10546242B2 (en) | Image analysis neural network systems | |
CN111914644B (zh) | 一种基于双模态协同的弱监督时序动作定位方法及系统 | |
JP6928371B2 (ja) | 分類器、分類器の学習方法、分類器における分類方法 | |
US10832685B2 (en) | Speech processing device, speech processing method, and computer program product | |
US10762391B2 (en) | Learning device, learning method, and storage medium | |
AU2018232914A1 (en) | Techniques for correcting linguistic training bias in training data | |
US11545238B2 (en) | Machine learning method for protein modelling to design engineered peptides | |
CN109543713A (zh) | 训练集的修正方法及装置 | |
CN109919252B (zh) | 利用少数标注图像生成分类器的方法 | |
JP2020126613A (ja) | イメージを分析するために、ディープラーニングネットワークに利用するためのトレーニングイメージに対するラベルリング信頼度を自動的に評価するための方法、及びこれを利用した信頼度評価装置 | |
US11176417B2 (en) | Method and system for producing digital image features | |
CN112668809B (zh) | 建立自闭症儿童康复效果预测模型的方法 | |
WO2023088174A1 (zh) | 目标检测方法及装置 | |
Moryossef et al. | Improving quality and efficiency in plan-based neural data-to-text generation | |
CN116959581A (zh) | 免疫原性预测模型的训练方法、装置、设备及存储介质 | |
CN106202045B (zh) | 基于车联网的专项语音识别方法 | |
US12014728B2 (en) | Dynamic combination of acoustic model states | |
RU2022120739A (ru) | Gan-cnn для прогнозирования связывания mhc-пептид | |
CN111507383A (zh) | 一种基于进化算法的神经网络自动剪枝方法 | |
Kostoulas et al. | Enhancing emotion recognition from speech through feature selection | |
JP2021197164A (ja) | 情報処理装置、情報処理方法及びコンピュータ可読記憶媒体 | |
Coleman et al. | Select Via Proxy: Efficient Data Selection For Training Deep Networks | |
KR20190078710A (ko) | 이미지 분류 시스템 및 방법 |