RU2020130420A - Gan-cnn для прогнозирования связывания мнс-пептид - Google Patents

Gan-cnn для прогнозирования связывания мнс-пептид Download PDF

Info

Publication number
RU2020130420A
RU2020130420A RU2020130420A RU2020130420A RU2020130420A RU 2020130420 A RU2020130420 A RU 2020130420A RU 2020130420 A RU2020130420 A RU 2020130420A RU 2020130420 A RU2020130420 A RU 2020130420A RU 2020130420 A RU2020130420 A RU 2020130420A
Authority
RU
Russia
Prior art keywords
mhc
polypeptide
positive
gan
computer
Prior art date
Application number
RU2020130420A
Other languages
English (en)
Other versions
RU2777926C2 (ru
RU2020130420A3 (ru
Inventor
Синцзянь ВАН
Ин Хуан
Вэй ВАН
Ци Чжао
Original Assignee
Ридженерон Фармасьютикалз, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ридженерон Фармасьютикалз, Инк. filed Critical Ридженерон Фармасьютикалз, Инк.
Publication of RU2020130420A publication Critical patent/RU2020130420A/ru
Publication of RU2020130420A3 publication Critical patent/RU2020130420A3/ru
Application granted granted Critical
Publication of RU2777926C2 publication Critical patent/RU2777926C2/ru

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Claims (53)

1. Реализуемый на компьютере способ обучения генеративно-состязательной сети (GAN), предусматривающий:
a. генерирование посредством генератора GAN все более точных положительных смоделированных данных до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные как положительные;
b. представление положительных смоделированных данных, положительных реальных данных и отрицательных реальных данных в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует каждый тип данных как положительный или отрицательный;
c. представление положительных реальных данных и отрицательных реальных данных CNN для генерирования оценок прогноза; и
d. определение на основании оценок прогноза того, обучена или не обучена GAN, и, когда GAN не обучена, повторение стадий a-c до тех пор, пока не будет выполнено определение на основании оценок прогноза того, что GAN обучена.
2. Реализуемый на компьютере способ по п. 1, где положительные смоделированные данные, положительные реальные данные и отрицательные реальные данные включают биологические данные.
3. Реализуемый на компьютере способ по п. 1, где положительные смоделированные данные включают положительные смоделированные данные взаимодействия полипептид-главный комплекс гистосовместимости класса I (MHC-I), положительные реальные данные включают положительные реальные данные взаимодействия полипептид-MHC-I, и отрицательные реальные данные включают отрицательные реальные данные взаимодействия полипептид-MHC-I.
4. Реализуемый на компьютере способ по п. 3, где генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как реальные, предусматривает:
e. генерирование посредством генератора GAN в соответствии с набором параметров GAN первого смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC;
f. объединение первого смоделированного набора данных с положительными реальными взаимодействиями полипептид-MHC-I для аллеля MHC и отрицательными реальными взаимодействиями полипептид-MHC-I для аллеля MHC для создания набора данных для обучения GAN;
g. определение с помощью дискриминатора в соответствии с решающей границей, является ли соответствующее взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN смоделированным положительным, реальным положительным или реальным отрицательным;
h. корректировку, основанную на точности определения при помощи дискриминатора, одного или более из набора параметров GAN или решающей границы; и
i. повторение стадий e-h до тех пор, пока не будет соблюден первый критерий останова.
5. Реализуемый на компьютере способ по п. 4, где представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует соответствующие данные взаимодействия полипептид-MHC-I как положительные или отрицательные, предусматривает:
j. генерирование посредством генератора GAN в соответствии с набором параметров GAN второго смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC;
k. объединение второго смоделированного набора данных, положительных реальных взаимодействий полипептид-MHC-I для аллеля MHC и отрицательных реальных взаимодействий полипептид-MHC-I для аллеля MHC для создания набора данных для обучения CNN;
l. представление набора данных для обучения CNN в сверточную нейронную сеть (CNN);
m. классификацию посредством CNN в соответствии с набором параметров CNN соответствующего взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN как положительного или отрицательного;
n. корректировку, основанную на точности классификации посредством CNN, одного или более из набора параметров CNN; и
o. повторение стадий l-n до тех пор, пока не будет соблюден второй критерий останова.
6. Реализуемый на компьютере способ по п. 5, где представление положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в CNN для генерирования оценок прогноза предусматривает:
классификацию посредством CNN в соответствии с набором параметров CNN соответствующего взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного.
7. Реализуемый на компьютере способ по п. 6, где определение на основании оценок прогноза того, обучена ли GAN, предусматривает определение точности классификации посредством CNN, при этом, когда точность классификации удовлетворяет третьему критерию останова, выведение GAN и CNN.
8. Реализуемый на компьютере способ по п. 6, где определение на основании оценок прогноза того, обучена ли GAN, предусматривает определение точности классификации посредством CNN, при этом, когда точность классификации не удовлетворяет третьему критерию останова, возвращение к стадии а.
9. Реализуемый на компьютере способ по п. 4, где параметры GAN включают одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.
10. Реализуемый на компьютере способ по п. 9, где тип аллеля включает один или более из HLA-A, HLA-B, HLA-C или их подтип.
11. Реализуемый на компьютере способ по п. 9, где длина аллеля составляет от приблизительно 8 до приблизительно 12 аминокислот.
12. Реализуемый на компьютере способ по п. 11, где длина аллеля составляет от приблизительно 9 до приблизительно 11 аминокислот.
13. Реализуемый на компьютере способ по п. 3, дополнительно предусматривающий:
представление набора данных в CNN, где набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I;
классификацию посредством CNN каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и
синтез полипептида из кандидатного взаимодействия полипептид-MHC-I, классифицируемого как положительное взаимодействие полипептид-MHC-I.
14. Полипептид, полученный посредством способа по п. 13.
15. Реализуемый на компьютере способ по п. 13, где полипептид представляет собой опухолеспецифический антиген.
16. Реализуемый на компьютере способ по п. 13, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем MHC.
17. Реализуемый на компьютере способ по п. 3, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем.
18. Реализуемый на компьютере способ по п. 17, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций.
19. Реализуемый на компьютере способ по п. 3, где генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, предусматривает оценку выражения градиентного спуска для генератора GAN.
20. Реализуемый на компьютере способ по п. 3, где генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, предусматривает:
итеративное выполнение дискриминатора GAN для увеличения возможности присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I, низкой вероятности положительным смоделированным данным взаимодействия полипептид-MHC-I и низкой вероятности отрицательным реальным данным взаимодействия полипептид-MHC-I; и
итеративное выполнение генератора GAN для увеличения вероятности того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.
21. Реализуемый на компьютере способ по п. 3, где представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует соответствующие данные взаимодействия полипептид-MHC-I как положительные или отрицательные, предусматривает:
выполнение процедуры свертки;
выполнение процедуры нелинейности (ReLU);
выполнение процедуры объединения или субдискретизации; и
выполнение процедуры классификации (полносвязный слой).
22. Реализуемый на компьютере способ по п. 1, где GAN включает глубокую сверточную GAN (DCGAN).
23. Реализуемый на компьютере способ по п. 8, где первый критерий останова включает оценку функции среднеквадратичной ошибки (MSE), второй критерий останова включает оценку функции среднеквадратичной ошибки (MSE), и третий критерий останова включает оценку функции области под кривой (AUC).
24. Реализуемый на компьютере способ по п. 3, где оценка прогноза представляет собой вероятность того, что положительные реальные данные взаимодействия полипептид-MHC-I классифицированы как положительные данные взаимодействия полипептид-MHC-I.
25. Реализуемый на компьютере способ по п. 1, где определение на основании оценок прогноза того, обучена ли GAN, предусматривает сравнение одной или более оценок прогноза с пороговым значением.
26. Реализуемый на компьютере способ по п. 1, дополнительно предусматривающий выведение GAN и CNN.
27. Устройство, выполненное с возможностью выполнения способа по любому из пп. 1-13 и 15-26.
28. Машиночитаемый носитель (CRM), выполненный с возможностью выполнения способа по любому из пп. 1-13 и 15-26.
RU2020130420A 2018-02-17 2019-02-18 Gan-cnn для прогнозирования связывания мнс-пептид RU2777926C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862631710P 2018-02-17 2018-02-17
US62/631,710 2018-02-17
PCT/US2019/018434 WO2019161342A1 (en) 2018-02-17 2019-02-18 Gan-cnn for mhc peptide binding prediction

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2022120739A Division RU2022120739A (ru) 2018-02-17 2019-02-18 Gan-cnn для прогнозирования связывания mhc-пептид

Publications (3)

Publication Number Publication Date
RU2020130420A true RU2020130420A (ru) 2022-03-17
RU2020130420A3 RU2020130420A3 (ru) 2022-03-17
RU2777926C2 RU2777926C2 (ru) 2022-08-11

Family

ID=

Also Published As

Publication number Publication date
AU2019221793A1 (en) 2020-09-17
JP7459159B2 (ja) 2024-04-01
KR20200125948A (ko) 2020-11-05
AU2022221568A1 (en) 2022-09-22
CA3091480A1 (en) 2019-08-22
JP7047115B2 (ja) 2022-04-04
JP2022101551A (ja) 2022-07-06
KR20230164757A (ko) 2023-12-04
EP3753022A1 (en) 2020-12-23
WO2019161342A1 (en) 2019-08-22
KR102607567B1 (ko) 2023-12-01
US20190259474A1 (en) 2019-08-22
AU2022221568B2 (en) 2024-06-13
IL311528A (en) 2024-05-01
CN112119464A (zh) 2020-12-22
MX2020008597A (es) 2020-12-11
IL276730B2 (en) 2024-08-01
AU2019221793B2 (en) 2022-09-15
IL276730A (en) 2020-09-30
SG11202007854QA (en) 2020-09-29
IL276730B1 (en) 2024-04-01
JP2021514086A (ja) 2021-06-03
RU2020130420A3 (ru) 2022-03-17

Similar Documents

Publication Publication Date Title
IL311528A (en) GAN-CNN for MHC peptide binding prediction
KR102513089B1 (ko) 소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치
US10546242B2 (en) Image analysis neural network systems
CN111914644B (zh) 一种基于双模态协同的弱监督时序动作定位方法及系统
JP6928371B2 (ja) 分類器、分類器の学習方法、分類器における分類方法
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
US10762391B2 (en) Learning device, learning method, and storage medium
AU2018232914A1 (en) Techniques for correcting linguistic training bias in training data
US11545238B2 (en) Machine learning method for protein modelling to design engineered peptides
CN109543713A (zh) 训练集的修正方法及装置
CN109919252B (zh) 利用少数标注图像生成分类器的方法
JP2020126613A (ja) イメージを分析するために、ディープラーニングネットワークに利用するためのトレーニングイメージに対するラベルリング信頼度を自動的に評価するための方法、及びこれを利用した信頼度評価装置
US11176417B2 (en) Method and system for producing digital image features
CN112668809B (zh) 建立自闭症儿童康复效果预测模型的方法
WO2023088174A1 (zh) 目标检测方法及装置
Moryossef et al. Improving quality and efficiency in plan-based neural data-to-text generation
CN116959581A (zh) 免疫原性预测模型的训练方法、装置、设备及存储介质
CN106202045B (zh) 基于车联网的专项语音识别方法
US12014728B2 (en) Dynamic combination of acoustic model states
RU2022120739A (ru) Gan-cnn для прогнозирования связывания mhc-пептид
CN111507383A (zh) 一种基于进化算法的神经网络自动剪枝方法
Kostoulas et al. Enhancing emotion recognition from speech through feature selection
JP2021197164A (ja) 情報処理装置、情報処理方法及びコンピュータ可読記憶媒体
Coleman et al. Select Via Proxy: Efficient Data Selection For Training Deep Networks
KR20190078710A (ko) 이미지 분류 시스템 및 방법