RU2020130420A

RU2020130420A - Gan-cnn для прогнозирования связывания мнс-пептид

Info

Publication number: RU2020130420A
Application number: RU2020130420A
Authority: RU
Inventors: Синцзянь ВАН; Ин Хуан; Вэй ВАН; Ци Чжао
Original assignee: Ридженерон Фармасьютикалз, Инк.
Priority date: 2018-02-17
Filing date: 2019-02-18
Publication date: 2022-03-17
Also published as: AU2019221793A1; JP7459159B2; KR20200125948A; AU2022221568A1; CA3091480A1; JP7047115B2; JP2022101551A; KR20230164757A; EP3753022A1; WO2019161342A1; KR102607567B1; US20190259474A1; AU2022221568B2; IL311528A; CN112119464A; MX2020008597A; IL276730B2; AU2019221793B2; IL276730A; SG11202007854QA

Claims

1. Реализуемый на компьютере способ обучения генеративно-состязательной сети (GAN), предусматривающий:

a. генерирование посредством генератора GAN все более точных положительных смоделированных данных до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные как положительные;

b. представление положительных смоделированных данных, положительных реальных данных и отрицательных реальных данных в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует каждый тип данных как положительный или отрицательный;

c. представление положительных реальных данных и отрицательных реальных данных CNN для генерирования оценок прогноза; и

d. определение на основании оценок прогноза того, обучена или не обучена GAN, и, когда GAN не обучена, повторение стадий a-c до тех пор, пока не будет выполнено определение на основании оценок прогноза того, что GAN обучена.

2. Реализуемый на компьютере способ по п. 1, где положительные смоделированные данные, положительные реальные данные и отрицательные реальные данные включают биологические данные.

3. Реализуемый на компьютере способ по п. 1, где положительные смоделированные данные включают положительные смоделированные данные взаимодействия полипептид-главный комплекс гистосовместимости класса I (MHC-I), положительные реальные данные включают положительные реальные данные взаимодействия полипептид-MHC-I, и отрицательные реальные данные включают отрицательные реальные данные взаимодействия полипептид-MHC-I.

4. Реализуемый на компьютере способ по п. 3, где генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как реальные, предусматривает:

e. генерирование посредством генератора GAN в соответствии с набором параметров GAN первого смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC;

f. объединение первого смоделированного набора данных с положительными реальными взаимодействиями полипептид-MHC-I для аллеля MHC и отрицательными реальными взаимодействиями полипептид-MHC-I для аллеля MHC для создания набора данных для обучения GAN;

g. определение с помощью дискриминатора в соответствии с решающей границей, является ли соответствующее взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN смоделированным положительным, реальным положительным или реальным отрицательным;

h. корректировку, основанную на точности определения при помощи дискриминатора, одного или более из набора параметров GAN или решающей границы; и

i. повторение стадий e-h до тех пор, пока не будет соблюден первый критерий останова.

5. Реализуемый на компьютере способ по п. 4, где представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует соответствующие данные взаимодействия полипептид-MHC-I как положительные или отрицательные, предусматривает:

j. генерирование посредством генератора GAN в соответствии с набором параметров GAN второго смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC;

k. объединение второго смоделированного набора данных, положительных реальных взаимодействий полипептид-MHC-I для аллеля MHC и отрицательных реальных взаимодействий полипептид-MHC-I для аллеля MHC для создания набора данных для обучения CNN;

l. представление набора данных для обучения CNN в сверточную нейронную сеть (CNN);

m. классификацию посредством CNN в соответствии с набором параметров CNN соответствующего взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN как положительного или отрицательного;

n. корректировку, основанную на точности классификации посредством CNN, одного или более из набора параметров CNN; и

o. повторение стадий l-n до тех пор, пока не будет соблюден второй критерий останова.

6. Реализуемый на компьютере способ по п. 5, где представление положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в CNN для генерирования оценок прогноза предусматривает:

классификацию посредством CNN в соответствии с набором параметров CNN соответствующего взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного.

7. Реализуемый на компьютере способ по п. 6, где определение на основании оценок прогноза того, обучена ли GAN, предусматривает определение точности классификации посредством CNN, при этом, когда точность классификации удовлетворяет третьему критерию останова, выведение GAN и CNN.

8. Реализуемый на компьютере способ по п. 6, где определение на основании оценок прогноза того, обучена ли GAN, предусматривает определение точности классификации посредством CNN, при этом, когда точность классификации не удовлетворяет третьему критерию останова, возвращение к стадии а.

9. Реализуемый на компьютере способ по п. 4, где параметры GAN включают одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.

10. Реализуемый на компьютере способ по п. 9, где тип аллеля включает один или более из HLA-A, HLA-B, HLA-C или их подтип.

11. Реализуемый на компьютере способ по п. 9, где длина аллеля составляет от приблизительно 8 до приблизительно 12 аминокислот.

12. Реализуемый на компьютере способ по п. 11, где длина аллеля составляет от приблизительно 9 до приблизительно 11 аминокислот.

13. Реализуемый на компьютере способ по п. 3, дополнительно предусматривающий:

представление набора данных в CNN, где набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I;

классификацию посредством CNN каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и

синтез полипептида из кандидатного взаимодействия полипептид-MHC-I, классифицируемого как положительное взаимодействие полипептид-MHC-I.

14. Полипептид, полученный посредством способа по п. 13.

15. Реализуемый на компьютере способ по п. 13, где полипептид представляет собой опухолеспецифический антиген.

16. Реализуемый на компьютере способ по п. 13, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем MHC.

17. Реализуемый на компьютере способ по п. 3, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем.

18. Реализуемый на компьютере способ по п. 17, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций.

19. Реализуемый на компьютере способ по п. 3, где генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, предусматривает оценку выражения градиентного спуска для генератора GAN.

20. Реализуемый на компьютере способ по п. 3, где генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, предусматривает:

итеративное выполнение дискриминатора GAN для увеличения возможности присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I, низкой вероятности положительным смоделированным данным взаимодействия полипептид-MHC-I и низкой вероятности отрицательным реальным данным взаимодействия полипептид-MHC-I; и

итеративное выполнение генератора GAN для увеличения вероятности того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.

21. Реализуемый на компьютере способ по п. 3, где представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует соответствующие данные взаимодействия полипептид-MHC-I как положительные или отрицательные, предусматривает:

выполнение процедуры свертки;

выполнение процедуры нелинейности (ReLU);

выполнение процедуры объединения или субдискретизации; и

выполнение процедуры классификации (полносвязный слой).

22. Реализуемый на компьютере способ по п. 1, где GAN включает глубокую сверточную GAN (DCGAN).

23. Реализуемый на компьютере способ по п. 8, где первый критерий останова включает оценку функции среднеквадратичной ошибки (MSE), второй критерий останова включает оценку функции среднеквадратичной ошибки (MSE), и третий критерий останова включает оценку функции области под кривой (AUC).

24. Реализуемый на компьютере способ по п. 3, где оценка прогноза представляет собой вероятность того, что положительные реальные данные взаимодействия полипептид-MHC-I классифицированы как положительные данные взаимодействия полипептид-MHC-I.

25. Реализуемый на компьютере способ по п. 1, где определение на основании оценок прогноза того, обучена ли GAN, предусматривает сравнение одной или более оценок прогноза с пороговым значением.

26. Реализуемый на компьютере способ по п. 1, дополнительно предусматривающий выведение GAN и CNN.

27. Устройство, выполненное с возможностью выполнения способа по любому из пп. 1-13 и 15-26.

28. Машиночитаемый носитель (CRM), выполненный с возможностью выполнения способа по любому из пп. 1-13 и 15-26.