RU2777926C2

RU2777926C2 - Gan-cnn for prediction of mhc-peptide binding

Info

Publication number: RU2777926C2
Application number: RU2020130420A
Authority: RU
Inventors: Синцзянь ВАН; Ин Хуан; Вэй ВАН; Ци Чжао
Original assignee: Ридженерон Фармасьютикалз, Инк.
Priority date: 2018-02-17
Filing date: 2019-02-18
Publication date: 2022-08-11

Abstract

FIELD: biotechnology.

SUBSTANCE: methods for training a generative-adversarial network (hereinafter – GAN) in combination with a convolutional neural network (hereinafter – CNN) are disclosed. GAN and CNN can be trained using biological data, such as protein interaction data. CNN can be used to identify new data as positive or negative. Methods for the synthesis of polypeptide associated with new data on interaction of proteins identified as positive are disclosed.

EFFECT: GAN-CNN prediction of MHC-peptide binding.

25 cl, 17 dwg, 2 tbl, 6 ex

Description

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS-REFERENCE TO RELATED APPLICATIONS

[0001] Настоящая заявка испрашивает приоритет в соответствии с предварительной заявкой на патент США № 62/631710, поданной 17 февраля 2018 года и включенной таким образом в данный документ посредством ссылки во всей своей полноте.[0001] The present application claims priority under U.S. Provisional Application No. 62/631,710, filed Feb. 17, 2018, and hereby incorporated herein by reference in its entirety.

УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE INVENTION

[0002] Одна из самых больших проблем, с которыми сталкивается машинное обучение, представляет собой отсутствие больших аннотированных наборов данных. Аннотации данных не только являются дорогостоящими и затратными по времени, но и сильно зависят от наличия экспертов-наблюдателей. Ограниченный объем данных для обучения может снизить эффективность алгоритмов машинного обучения с учителем, которым часто требуются очень большие объемы данных для обучения, чтобы избежать переобучения. До недавнего времени было направлено множество усилий на извлечение как можно большего количества информации из имеющихся данных. Одной из областей, в которой в частности не хватает больших аннотированных наборов данных, является анализ биологических данных, таких как данные взаимодействия белков. Способность прогнозировать, как белки могут взаимодействовать, неоценима для определения новых терапевтических средств.[0002] One of the biggest challenges facing machine learning is the lack of large annotated datasets. Data annotations are not only costly and time consuming, but also highly dependent on the availability of expert observers. A limited amount of training data can reduce the effectiveness of supervised machine learning algorithms, which often require very large amounts of training data to avoid overfitting. Until recently, a lot of effort has gone into extracting as much information as possible from the available data. One area in particular lacking in large annotated datasets is the analysis of biological data, such as protein interaction data. The ability to predict how proteins might interact is invaluable for identifying new therapeutics.

[0003] Достижения в области иммунотерапии быстро развиваются и обеспечивают получение новых лекарственных препаратов, которые модулируют иммунную систему пациента, помогая бороться с заболеваниями, в том числе с раком, аутоиммунными нарушениями и инфекциями. Например, были идентифицированы молекулы ингибиторов иммунных контрольных точек, например, PD-1 и лиганды PD-1, которые используются для разработки лекарственных средств, которые ингибируют или стимулируют передачу сигнала через PD-1 и тем самым модулируют иммунную систему пациента. Эти новые лекарственные средства оказались очень эффективными в некоторых случаях, но не во всех. Одна из причин заключается в том, что в опухолях у около 80 процентов пациентов с раком недостаточно раковых антигенов для привлечения Т-клеток. [0003] Advances in immunotherapy are advancing rapidly and provide new drugs that modulate the patient's immune system to help fight disease, including cancer, autoimmune disorders, and infections. For example, immune checkpoint inhibitor molecules, such as PD-1 and PD-1 ligands, have been identified and are being used to develop drugs that inhibit or stimulate signaling through PD-1 and thereby modulate the patient's immune system. These new drugs have proven to be very effective in some cases, but not in all. One reason is that about 80 percent of cancer patients' tumors do not have enough cancer antigens to attract T cells.

[0004] Нацеливание на опухолеспецифические мутации индивидуума является перспективным, поскольку такие специфические мутации продуцируют опухолеспецифические пептиды, называемые неоантигенами, которые являются новыми для иммунной системы и не обнаруживаются в нормальных тканях. По сравнению с ассоциированными с опухолью аутоантигенами неоантигены вызывают Т-клеточные ответы, не зависящие от центральной толерантности организма-хозяина, обусловленной тимусом, а также вызывают меньшую токсичность, обусловленную аутоиммунными реакциями на доброкачественные клетки (Nature Biotechnology 35, 97 (2017).[0004] Targeting tumor-specific mutations in an individual is promising because such specific mutations produce tumor-specific peptides called neoantigens that are new to the immune system and are not found in normal tissues. Compared to tumor-associated autoantigens, neoantigens elicit T-cell responses that are independent of the host's central thymus-mediated tolerance and also elicit less autoimmune-mediated toxicity against benign cells (Nature Biotechnology 35, 97 (2017).

[0005] Ключевой вопрос для открытия неоэпитопа заключается в том, какие мутированные белки процессируются протеасомой в пептиды с 8-11 остатками, перемещаются в эндоплазматический ретикулум с помощью транспортера, связанного с процессингом антигена (TAP), и загружаются на вновь синтезированный главный комплекс гистосовместимости класса I (MHC-I) для распознавания CD8+ Т-клетками (Nature Biotechnology 35, 97 (2017)).[0005] A key question for the discovery of the neoepitope is which mutated proteins are processed by the proteasome into peptides of 8-11 residues, translocated to the endoplasmic reticulum via an antigen processing-associated transporter (TAP), and loaded onto the newly synthesized MHC class I (MHC-I) for CD8+ T cell recognition (Nature Biotechnology 35, 97 (2017)).

[0006] Вычислительные способы прогнозирования взаимодействия пептида с MHC-I известны в данной области. Хотя некоторые вычислительные способы сосредоточены на прогнозировании того, что происходит во время процессинга антигена (например, NetChop) и транспорта пептидов (например, NetCTL), большинство усилий сосредоточено на моделировании того, какие пептиды связываются с молекулой MHC-I. Способы на основе нейронных сетей, такие как NetMHC, используются для прогнозирования последовательностей антигенов, которые образуют эпитопы, соответствующие полости молекул MHC-I пациента. Другие фильтры могут применяться для деприоритизации гипотетических белков и определения того, ориентирована ли мутированная аминокислота так, что она, вероятно, обращена наружу от MHC (в сторону Т-клеточного рецептора), или снижает аффинность эпитопа к самой молекуле MHC-I (Nature Biotechnology 35, 97 (2017).[0006] Computational methods for predicting the interaction of a peptide with MHC-I are known in the art. Although some computational methods focus on predicting what happens during antigen processing (eg NetChop) and peptide transport (eg NetCTL), most efforts are focused on modeling which peptides bind to the MHC-I molecule. Neural network based methods such as NetMHC are used to predict antigen sequences that form epitopes corresponding to the cavity of a patient's MHC-I molecules. Other filters can be used to deprioritize hypothetical proteins and determine whether the mutated amino acid is oriented so that it likely faces outward from the MHC (towards the T-cell receptor) or reduces the epitope's affinity for the MHC-I molecule itself (Nature Biotechnology 35 , 97 (2017).

[0007] Эти прогнозы могут быть неверными по многим причинам. Секвенирование уже вносит ошибки амплификации и технические ошибки в риды, используемые в качестве исходного материала для пептидов. При моделировании процессинга и представления эпитопа также необходимо учитывать тот факт, что люди имеют ∼ 5000 аллелей, кодирующих молекулы MHC-I, при этом у отдельного пациента экспрессируется до шести из них, причем все с разной эпитопной аффинностью. Такие способы, как NetMHC, как правило, требуют 50-100 экспериментально определенных измерений связывания пептидов для конкретного аллеля для построения модели с достаточной точностью. Но поскольку многие аллели MHC не имеют таких данных, «панспецифические» способы - способные прогнозировать связывание на основе того, имеют ли аллели MHC с подобными контактными средами сходные специфичности связывания - все чаще выходят на первый план.[0007] These predictions may be incorrect for many reasons. Sequencing already introduces amplification and technical errors into the reads used as starting material for peptides. When modeling epitope processing and presentation, it is also necessary to take into account the fact that humans have ∼ 5000 alleles encoding MHC-I molecules, while up to six of them are expressed in an individual patient, all with different epitope affinities. Methods such as NetMHC typically require 50-100 experimentally determined peptide binding measurements for a particular allele to build a model with sufficient accuracy. But because many MHC alleles lack such data, "pan-specific" methods - capable of predicting binding based on whether MHC alleles with similar contact environments have similar binding specificities - are increasingly coming to the fore.

[0008] Таким образом, существует потребность в улучшенных системах и способах для генерирования наборов данных для применения в приложениях машинного обучения, в частности, наборов биологических данных. Методы прогнозирования связывания пептидов могут выиграть от таких улучшенных систем и способов. Таким образом, целью настоящего изобретения является обеспечение реализуемых на компьютере систем и способов, которые характеризуются улучшенными возможностями генерирования наборов данных для обучения приложений машинного обучения делать прогнозы, в том числе прогнозирование связывания пептида с MHC-I. [0008] Thus, there is a need for improved systems and methods for generating datasets for use in machine learning applications, in particular biological datasets. Methods for predicting peptide binding may benefit from such improved systems and methods. Thus, it is an object of the present invention to provide computer-based systems and methods that have improved dataset generation capabilities for training machine learning applications to make predictions, including predicting peptide binding to MHC-I.

КРАТКОЕ ОПИСАНИЕSHORT DESCRIPTION

[0009] Следует понимать, что и нижеследующее общее описание, и нижеследующее подробное описание являются лишь иллюстративными и поясняющими, но не являются ограничивающими. [0009] It is to be understood that both the following general description and the following detailed description are illustrative and explanatory only, and are not limiting.

[0010] Представлены способы и системы для обучения генеративно-состязательной сети (GAN), предусматривающие генерирование посредством генератора GAN все более точных положительных смоделированных данных до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные как положительные, представление положительных смоделированных данных, положительных реальных данных и отрицательных реальных данных в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует каждый тип данных как положительный или отрицательный, представление положительных реальных данных и отрицательных реальных данных в CNN для генерирования оценок прогноза, определение на основании оценок прогноза того, обучена ли GAN или нет, и выведение GAN и CNN. Этот способ можно повторять до тех пор, пока GAN не будет обучена должным образом. Положительные смоделированные данные, положительные реальные данные и отрицательные реальные данные включают биологические данные. Биологические данные могут включать данные взаимодействия белок-белок. Биологические данные могут включать данные взаимодействия полипептид-MHC-I. Положительные смоделированные данные могут включать положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные включают положительные реальные данные взаимодействия полипептид-MHC-I, и отрицательные реальные данные включают отрицательные реальные данные взаимодействия полипептид-MHC-I.[0010] Methods and systems for training a generative adversarial network (GAN) are provided, providing for the generation by the GAN generator of increasingly accurate positive simulated data until the GAN discriminator classifies positive simulated data as positive, representing positive simulated data, positive real data and negative real data into a convolutional neural network (CNN) until the CNN classifies each type of data as positive or negative, representing positive real data and negative real data in the CNN to generate prediction scores, determining based on the prediction scores whether whether the GAN is trained or not, and derivation of the GAN and CNN. This method can be repeated until the GAN is properly trained. Positive simulated data, positive real data, and negative real data include biological data. The biological data may include protein-protein interaction data. The biological data may include polypeptide-MHC-I interaction data. Positive simulated data may include positive simulated polypeptide-MHC-I interaction data, positive real data include positive real polypeptide-MHC-I interaction data, and negative real data include negative real polypeptide-MHC-I interaction data.

[0011] Дополнительные преимущества будут частично изложены в нижеследующем описании или могут быть получены в ходе практического осуществления. Преимущества будут реализованы и достигнуты с помощью признаков и комбинаций, конкретно указанных в прилагаемой формуле изобретения.[0011] Additional advantages will be set forth in part in the following description, or may be learned from practice. The advantages will be realized and achieved by the features and combinations specifically set forth in the appended claims.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВBRIEF DESCRIPTION OF GRAPHICS

[0012] Прилагаемые графические материалы, которые включены в настоящее описание и составляют его часть, иллюстрируют варианты осуществления и вместе с описанием служат для пояснения принципов способов и систем.[0012] The accompanying drawings, which are included in and form part of this specification, illustrate embodiments and, together with the description, serve to explain the principles of the methods and systems.

На фигуре 1 представлена блок-схема, иллюстрирующая пример способа.The figure 1 presents a block diagram illustrating an example of the method.

На фигуре 2 представлена примерная схема, отображающая часть процесса прогнозирования связывания пептида, в том числе генерирование и обучение моделей GAN.Figure 2 is an exemplary diagram showing part of the peptide binding prediction process, including generation and training of GAN models.

На фигуре 3 представлена примерная схема, отображающая часть процесса прогнозирования связывания пептида, в том числе генерирование данных с применением обученных моделей GAN и обучение моделей CNN.Figure 3 is an exemplary diagram showing part of the peptide binding prediction process, including generating data using trained GAN models and training CNN models.

На фигуре 4 представлена примерная схема, отображающая часть процесса прогнозирования связывания пептида, в том числе завершение обучения моделей CNN и генерирование прогнозов связывания пептидов с применением обученных моделей CNN.Figure 4 is an exemplary diagram showing part of the peptide binding prediction process, including completing the training of the CNN models and generating peptide binding predictions using the trained CNN models.

На фигуре 5А представлена примерная схема потока данных типичной GAN.Figure 5A is an exemplary data flow diagram of a typical GAN.

На фигуре 5В представлена примерная схема потока данных генератора GAN.Figure 5B is an exemplary data flow diagram of a GAN generator.

На фигуре 6 представлена примерная блок-диаграмма части стадий обработки, предусматриваемых генератором, используемым в GAN.Figure 6 is an exemplary block diagram of a portion of the processing steps provided by the generator used in the GAN.

На фигуре 7 представлена примерная блок-диаграмма части стадий обработки, предусматриваемых генератором, используемым в GAN.Figure 7 is an exemplary block diagram of a portion of the processing steps provided by the generator used in the GAN.

На фигуре 8 представлена примерная блок-диаграмма части стадий обработки, предусматриваемых дискриминатором, используемым в GAN.Figure 8 is an exemplary block diagram of a portion of the processing steps provided by a discriminator used in a GAN.

На фигуре 9 представлена примерная блок-диаграмма части стадий обработки, предусматриваемых дискриминатором, используемым в GAN.Figure 9 is an exemplary block diagram of a portion of the processing steps provided by a discriminator used in a GAN.

На фигуре 10 представлена блок-схема, иллюстрирующая пример способа.The figure 10 presents a flowchart illustrating an example of the method.

На фигуре 11 представлена примерная блок-схема компьютерной системы, в которой могут быть реализованы процессы и структуры, участвующие в прогнозировании связывания пептида.Figure 11 is an exemplary block diagram of a computer system that can implement the processes and structures involved in predicting peptide binding.

На фигуре 12 представлена таблица, показывающая результаты указанных моделей прогнозирования для прогнозирования связывания белка с белковым комплексом MHC-I для указанных аллелей HLA. Figure 12 is a table showing the results of these predictive models for predicting protein binding to the MHC-I protein complex for the indicated HLA alleles.

На фигуре 13A представлена таблица, в которой показаны данные, используемые для сравнения моделей прогнозирования. Figure 13A is a table showing the data used to compare prediction models.

На фигуре 13B представлена гистограмма сравнения AUC настоящей реализации архитектуры CNN и такой же из статьи Ванга. Figure 13B is a histogram comparing the AUC of the present implementation of the CNN architecture and the same one from Wang's article.

На фигуре 13C представлена гистограмма сравнения настоящей реализации с существующими системами.Figure 13C is a bar chart comparing the present implementation with existing systems.

На фигуре 14 представлена таблица, показывающая смещение, полученное при выборе смещенного тестового набора.Figure 14 is a table showing the bias obtained by selecting a biased test set.

На фигуре 15 представлен линейный график зависимости SRCC от размера теста, показывающий, что чем меньше размер теста, тем лучше SRRC. Figure 15 is a line plot of SRCC versus test size, showing that the smaller the test size, the better the SRRC.

На фигуре 16A представлена таблица, в которой показаны данные, используемые для сравнения нейронных сетей Adam и RMSprop. Figure 16A is a table showing the data used to compare the Adam and RMSprop neural networks.

На фигуре 16B представлена гистограмма сравнения AUC нейронных сетей, обученных оптимизатором Adam и RMSprop. Figure 16B is a histogram comparing the AUC of neural networks trained by the Adam optimizer and RMSprop.

На фигуре 16С представлена гистограмма сравнения SRCC нейронных сетей, обученных оптимизатором Adam и RMSprop.Figure 16C is a histogram of the SRCC comparison of neural networks trained by the Adam optimizer and RMSprop.

На фигуре 17 представлена таблица, показывающая, что сочетание поддельных и реальных данных обеспечивает лучшее прогнозирование, чем одни только поддельные данные. Figure 17 is a table showing that the combination of fake and real data provides better prediction than fake data alone.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

[0013] Прежде чем настоящие способы и системы будут раскрыты и описаны, следует понять, что способы и системы не ограничиваются конкретными способами, конкретными компонентами или конкретными вариантами реализации. Также следует понимать, что терминология, используемая в данном документе, представлена только с целью описания определенных вариантов осуществления и не подразумевается как ограничивающая.[0013] Before the present methods and systems are disclosed and described, it should be understood that the methods and systems are not limited to specific methods, specific components, or specific implementations. It should also be understood that the terminology used herein is for the purpose of describing certain embodiments only and is not intended to be limiting.

[0014] Используемая в описании и прилагаемой формуле изобретения форма единственного числа включает ссылки на множественное число, если контекст явно не предусматривает иное. Диапазоны могут быть выражены в данном документе как от «приблизительно» одного определенного значения и/или до «приблизительно» другого определенного значения. В тех случаях, когда такой диапазон выражен, тогда другой вариант осуществления включает от одного определенного значения и/или до другого определенного значения. Подобным образом, когда значения выражены в виде приближений с использованием предшествующего «приблизительно», тогда будет понятно, что определенное значение образует другой вариант осуществления. Также будет понятно, что конечные точки каждого из диапазонов являются значимыми как в отношении другой конечной точки, так и независимо от другой конечной точки.[0014] As used in the description and the appended claims, the singular form includes references to the plural, unless the context clearly requires otherwise. Ranges may be expressed herein as from "about" one specific value and/or to "about" another specific value. Where such a range is expressed, then another embodiment includes from one specific value and/or to another specific value. Similarly, when values are expressed as approximations using the preceding "approximately", then it will be understood that a particular value constitutes another embodiment. It will also be understood that the endpoints of each of the ranges are significant both with respect to the other endpoint and independently of the other endpoint.

[0015] «Необязательный» или «необязательно» означает, что далее описанное событие или обстоятельство может или не может происходить, и что описание включает случаи, при которых указанное событие или обстоятельство имеет место, и случаи, при которых оно не происходит. [0015] "Optional" or "optional" means that the event or circumstance described below may or may not occur, and that the description includes cases in which the specified event or circumstance occurs and cases in which it does not occur.

[0016] Во всем описании и формуле данного документа слово «содержать» и варианты этого слова, такие как «содержащий» и «содержит», означает «в том числе без ограничения», и не предназначено для исключения, например, других компонентов, целых чисел или стадий. Выражение «примерный» означает «пример» и не предназначено для указания предпочтительного или идеального варианта осуществления. Выражение «такой как» используется не в ограничительном смысле, а в пояснительных целях.[0016] Throughout the description and claims of this document, the word "comprise" and variants of this word, such as "comprising" and "comprises", means "including without limitation", and is not intended to exclude, for example, other components, whole numbers or stages. The expression "exemplary" means "example" and is not intended to indicate a preferred or ideal embodiment. The expression "such as" is not used in a restrictive sense, but for explanatory purposes.

[0017] Понятно, что способы и системы не ограничиваются конкретными описанными методологией, протоколами и реагентами, поскольку они могут варьировать. Также следует понимать, что используемая в данном документе терминология предназначена только для описания конкретных вариантов осуществления и не предназначена для ограничения объема настоящих способов и системы, которые будут ограничены только прилагаемой формулой изобретения.[0017] It is understood that the methods and systems are not limited to the particular methodology, protocols, and reagents described, as they may vary. It should also be understood that the terminology used herein is only intended to describe specific embodiments and is not intended to limit the scope of the present methods and system, which will be limited only by the appended claims.

[0018] Если в данном документе не определено иное, все технические и научные термины, используемые в данном документе, имеют те же значения, которые обычно понимаются специалистом в области техники, к которой принадлежат способы и системы. Хотя при практическом осуществлении или тестировании настоящего способа или композиций можно применять любые способы и материалы, сходные с описанными в данном документе или эквивалентные им, в данном документе описаны только самые предпочтительные способы, устройства и материалы. Публикации, цитируемые в данном документе, и материалы, в отношении которых они цитируются, тем самым специально включены посредством ссылки. Ничто в данном документе не должно толковаться как признание того, что настоящие способы и системы не имеют права предшествовать такому раскрытию на основании предшествующего изобретения. Не делается допущения, что какие-либо ссылки составляют предшествующий уровень техники. Обсуждение ссылок указывает на то, что утверждают их авторы, и заявители оставляют за собой право оспорить точность и актуальность цитируемых документов. Будет четко понятно, что, хотя в данном документе упоминается ряд публикаций, такая ссылка не является признанием того, что какой-либо из этих документов составляет часть общих знаний в данной области.[0018] Unless otherwise defined herein, all technical and scientific terms used herein have the same meanings as generally understood by a person skilled in the art to which the methods and systems belong. While any methods and materials similar to or equivalent to those described herein may be used in the practice or testing of the present method or compositions, only the most preferred methods, devices and materials are described herein. The publications cited in this document and the materials to which they are cited are hereby expressly incorporated by reference. Nothing herein should be construed as an admission that the present methods and systems are not entitled to precede such disclosure by virtue of prior invention. No admission is made that any references constitute prior art. Discussions of references indicate what their authors claim, and applicants reserve the right to challenge the accuracy and timeliness of cited documents. It will be clearly understood that although a number of publications are referred to in this document, such reference is not an admission that any of these documents form part of the general knowledge in this field.

[0019] В данном документе раскрыты компоненты, которые можно применять для выполнения указанных способов и систем. В данном документе раскрыты эти и другие компоненты, и известно, что при раскрытии комбинаций, подмножеств, взаимодействий, групп и т. д. таких компонентов, хотя конкретная ссылка на каждую из различных отдельных и совокупных комбинаций и перестановки таких компонентов может не быть четко описана в данном документе, каждое из этого конкретно предположено и описано в данном документе, в отношении всех способов и систем. Это применимо ко всем вариантам осуществления данной заявки, в том числе стадиям в указанных способах. Таким образом, если существует ряд дополнительных стадий, которые можно выполнить, следует понимать, что каждая из этих дополнительных стадий может быть выполнена с любым конкретным вариантом осуществления или комбинацией вариантов осуществления раскрытых способов.[0019] This document discloses components that can be used to perform these methods and systems. These and other components are disclosed herein, and it is known that in the disclosure of combinations, subsets, interactions, groups, etc. of such components, although specific reference to each of the various individual and cumulative combinations and permutations of such components may not be clearly described herein, each of which is specifically contemplated and described herein in relation to all methods and systems. This applies to all embodiments of this application, including steps in these methods. Thus, if there are a number of additional steps that can be performed, it should be understood that each of these additional steps can be performed with any particular embodiment or combination of embodiments of the disclosed methods.

[0020] Настоящие способы и системы можно легче понять, обратившись к нижеследующему подробному описанию предпочтительных вариантов осуществления и примерам, включенным в них, а также к фигурам и их предыдущему и последующему описанию.[0020] The present methods and systems may be more readily understood by referring to the following detailed description of the preferred embodiments and the examples included therein, as well as to the figures and their previous and following descriptions.

[0021] Способы и системы могут принимать форму полностью аппаратного варианта осуществления, полностью программного варианта осуществления или варианта осуществления, сочетающего программные и аппаратные варианты осуществления. Кроме того, способы и системы могут принимать форму компьютерного программного продукта на машиночитаемом носителе данных, имеющем машиночитаемые программные инструкции (например, компьютерное программное обеспечение), воплощенные на носителе данных. Более конкретно, настоящие способы и системы могут принимать форму компьютерного программного обеспечения, реализуемого через Интернет. Может использоваться любой подходящий машиночитаемый носитель данных, в том числе жесткие диски, CD-ROM, оптические запоминающие устройства или магнитные запоминающие устройства. [0021] Methods and systems may take the form of an all-hardware implementation, an all-software implementation, or an implementation that combines software and hardware implementations. In addition, the methods and systems may take the form of a computer program product on a computer-readable storage medium having computer-readable program instructions (eg, computer software) embodied on the storage medium. More specifically, the present methods and systems may take the form of computer software implemented over the Internet. Any suitable computer-readable storage medium may be used, including hard disks, CD-ROMs, optical storage devices, or magnetic storage devices.

[0022] Варианты осуществления способов и систем описаны ниже со ссылкой на блок-диаграммы и блок-схемы, иллюстрирующие способы, системы, устройства и компьютерные программные продукты. Будет понятно, что каждый блок иллюстраций в виде блок-диаграмм и блок-схем и комбинации блоков на иллюстрациях в виде блок-диаграмм и блок-схем соответственно могут быть реализованы посредством команд компьютерных программ. Данные команды компьютерных программ могут быть загружены на компьютер общего назначения, компьютер специализированного назначения или другое программируемое устройство обработки данных, представляющее собой машину, за счет которых команды, выполняемые компьютером или другим программируемым устройством обработки данных, обеспечивают реализацию функций, указанных в блоке или блоках блок-схемы. [0022] Embodiments of methods and systems are described below with reference to block diagrams and flowcharts illustrating methods, systems, devices, and computer program products. It will be appreciated that each block of block diagram and block diagram illustrations and combinations of blocks in the block diagram and block diagram illustrations, respectively, can be implemented by computer program instructions. These computer program instructions can be downloaded to a general purpose computer, a special purpose computer, or other programmable data processing device, which is a machine, due to which the instructions executed by the computer or other programmable data processing device provide the implementation of the functions indicated in the block or blocks. -scheme.

[0023] Такие команды компьютерных программ также могут храниться в машиночитаемом запоминающем устройстве, которое может управлять компьютером или другим программируемым устройством обработки данных для выполнения их функций надлежащим образом, за счет чего команды, хранящиеся в машиночитаемом запоминающем устройстве, обеспечивают получение готового изделия, включая машиночитаемые команды, предназначенные для реализации функции, указанной в блоке или блоках блок-схемы. Команды компьютерных программ также могут быть загружены на компьютер или другое программируемое устройство обработки данных для обеспечения выполнения ряда технологических стадий на компьютере или другом программируемом устройстве с получением реализуемого на компьютере процесса, за счет чего команды, выполняемые на компьютере или другом программируемом устройстве, обеспечивают стадии для реализации функций, указанных в блоке или блоках блок-схемы. [0023] Such computer program instructions may also be stored in a computer-readable memory device that can control a computer or other programmable data processing device to perform its functions properly, whereby the instructions stored in the computer-readable memory device provide a finished product, including computer-readable commands intended to implement the function indicated in the block or blocks of the block diagram. Computer program instructions may also be downloaded to a computer or other programmable processing device to cause a number of process steps to be performed on the computer or other programmable device to form a computer-implemented process, whereby the instructions executed on the computer or other programmable device provide steps for implementation of the functions indicated in the block or blocks of the block diagram.

[0024] Соответственно, блоки иллюстраций в виде блок-диаграмм и блок-схем обеспечивают комбинации средств, предназначенных для выполнения указанных функций, комбинации стадий, предназначенных для выполнения указанных функций, и средства, представленные командами программ, предназначенные для выполнения указанных функций. Также следует понимать, что каждый блок иллюстраций в виде блок-диаграмм и блок-схем и комбинации блоков иллюстраций в виде блок-диаграмм и блок-схем могут быть реализованы с помощью аппаратных компьютерных систем специализированного назначения, которые выполняют указанные функции или стадии, или комбинаций аппаратных средств специализированного назначения и компьютерных программ.[0024] Accordingly, block diagrams and block diagrams provide combinations of means to perform said functions, combinations of steps to perform said functions, and means represented by program instructions to perform said functions. It should also be understood that each block diagram and block diagram illustration and combination of block diagram and block diagram illustrations can be implemented with special purpose computer hardware systems that perform the indicated functions or steps or combinations. specialized hardware and computer programs.

I. ОпределенияI. Definitions

[0025] Аббревиатура «SRCC» относится к расчетам коэффициента ранговой корреляции Спирмена (SRCC). [0025] The abbreviation "SRCC" refers to Spearman Rank Correlation Coefficient (SRCC) calculations.

[0026] Термин «кривая ROC» относится к кривой рабочих характеристик приемника.[0026] The term "ROC curve" refers to a receiver performance curve.

[0027] Аббревиатура «CNN» относится к сверточной нейронной сети. [0027] The abbreviation "CNN" refers to a convolutional neural network.

[0028] Аббревиатура «GAN» относится к генеративно-состязательной сети. [0028] The abbreviation "GAN" refers to a generative adversarial network.

[0029] Термин «HLA» относится к лейкоцитарному антигену человека. Система или комплекс HLA представляет собой генный комплекс, кодирующий белки главного комплекса гистосовместимости (MHC) у человека. Основными генами HLA класса I являются HLA-A, HLA-B и HLA-C, тогда как HLA-E, HLA-F и HLA-G - минорные гены.[0029] The term "HLA" refers to human leukocyte antigen. The HLA system or complex is a gene complex encoding major histocompatibility complex (MHC) proteins in humans. The major HLA class I genes are HLA-A, HLA-B, and HLA-C, while HLA-E, HLA-F, and HLA-G are minor genes.

[0030] Термин «MHC I» или «главный комплекс гистосовместимости I» относится к набору белков клеточной поверхности, состоящим из α-цепи, имеющей три домена - α1, α2 и α3. Домен α3 является трансмембранным доменом, в то время как домены α1 и α2 отвечают за образование пептид-связывающей полости.[0030] The term "MHC I" or "major histocompatibility complex I" refers to a set of cell surface proteins consisting of an α-chain having three domains - α1, α2 and α3. The α3 domain is a transmembrane domain, while the α1 and α2 domains are responsible for the formation of the peptide-binding cavity.

[0031] «Взаимодействие полипептид-MHC I» относится к связыванию полипептида в пептид-связывающей полости MHC I.[0031] "Polypeptide-MHC I interaction" refers to the binding of a polypeptide in the peptide-binding cavity of the MHC I.

[0032] Используемый в данном документе термин «биологические данные» означает любые данные, полученные в результате измерения биологических состояний человека, животных или других биологических организмов, включая микроорганизмы, вирусы, растения и другие живые организмы. Измерения могут быть выполнены с помощью любых тестов, анализов или наблюдений, которые известны врачам, ученым, диагностам и т. п. Биологические данные могут включать без ограничения последовательности ДНК, последовательности РНК, последовательности белков, взаимодействия белков, клинические тесты и наблюдения, физические и химические измерения, геномные определения, протеомные определения, уровни лекарственных средств, гормональные и иммунологические тесты, нейрохимические или нейрофизические измерения, определения уровня минералов и витаминов, генетический и семейный анамнез и другие определения, которые могут дать представление о состоянии человека или лиц, проходящих тестирование. В данном документе термин «данные» используется взаимозаменяемо с термином «биологические данные».[0032] As used herein, the term "biological data" means any data obtained from the measurement of the biological conditions of humans, animals, or other biological organisms, including microorganisms, viruses, plants, and other living organisms. Measurements may be made using any test, analysis, or observation known to physicians, scientists, diagnosticians, and the like. Biological data may include, without limitation, DNA sequences, RNA sequences, protein sequences, protein interactions, clinical tests and observations, physical and chemical measurements, genomic determinations, proteomic determinations, drug levels, hormonal and immunological tests, neurochemical or neurophysical measurements, mineral and vitamin determinations, genetic and family history, and other determinations that may provide insight into the condition of the person or persons being tested. In this document, the term "data" is used interchangeably with the term "biological data".

II. Системы прогнозирования связывания пептидов II. Peptide binding prediction systems

[0033] В одном варианте осуществления настоящего изобретения представлена система прогнозирования связывания пептида с MHC-I, которая имеет структуру генеративно-состязательная сеть (GAN) - сверточная нейронная сеть (CNN), также называемая глубокой сверточной генеративно- состязательной сетью. GAN содержит дискриминатор CNN и генератор CNN и может быть обучена посредством существующих данных связывания пептид-MHC-I. Раскрытые системы GAN-CNN имеют несколько преимуществ по сравнению с существующими системами для прогнозирования связывания пептид-MHC-I, в том числе без ограничения возможность обучения посредством неограниченного количества аллелей и лучшая эффективность прогнозирования. Настоящие способы и системы, хотя и описаны в данном документе в отношении прогнозирования связывания пептида с MHC-I, пути применения указанных способов и систем этим не ограничиваются. Прогнозирование связывания пептида с MHC-I представлено как пример применения улучшенной системы GAN-CNN, описанной в данном документе. Улучшенная система GAN-CNN применима к широкому спектру биологических данных для получения различных прогнозов.[0033] In one embodiment, the present invention provides a system for predicting peptide binding to MHC-I, which has a generative adversarial network (GAN)-convolutional neural network (CNN) structure, also referred to as a deep convolutional generative adversarial network. The GAN contains a CNN discriminator and a CNN generator and can be trained from existing peptide-MHC-I binding data. The disclosed GAN-CNN systems have several advantages over existing systems for predicting peptide-MHC-I binding, including, but not limited to, the ability to learn through an unlimited number of alleles and better prediction performance. The present methods and systems, although described herein in relation to predicting peptide binding to MHC-I, are not limited to the ways in which these methods and systems can be used. The prediction of peptide binding to MHC-I is presented as an example of the application of the improved GAN-CNN system described herein. The improved GAN-CNN system is applicable to a wide range of biological data to obtain various predictions.

A. Примерные системы нейронной сети и способыA. Exemplary Neural Network Systems and Methods

[0034] На фигуре 1 представлена блок-схема 100, иллюстрирующая пример способа. Начиная со стадии 110, генератор GAN (см. 504 на фиг. 5A) может генерировать все более точные положительные смоделированные данные. Положительные смоделированные данные могут включать биологические данные, такие как данные взаимодействия белков (например, аффинность связывания). Аффинность связывания является одним из примеров измерения силы связывающего взаимодействия между биомолекулой (например, белком, ДНК, лекарственным средством и т. д.) и биомолекулой (например, белком, ДНК, лекарственным средством и т. д.). Аффинность связывания может быть выражена численно как значение полумаксимальной ингибирующей концентрации (IC₅₀). Меньшее число указывает на более высокую аффинность. Пептиды со значениями IC50 <50 нМ считаются высокоаффинными, с <500 нМ - с промежуточной аффинностью, а с <5000 нМ - низкой аффинностью. IC₅₀ может быть преобразована в категорию связывания как связывание (1) или отсутствие связывания (-1). [0034] Figure 1 is a flowchart 100 illustrating an example of a method. From step 110 , the GAN generator (see 504 in FIG. 5A ) can generate increasingly accurate positive simulated data. Positive simulated data may include biological data, such as protein interaction data (eg, binding affinity). Binding affinity is one example of measuring the strength of a binding interaction between a biomolecule (eg, protein, DNA, drug, etc.) and a biomolecule (eg, protein, DNA, drug, etc.). Binding affinity can be expressed numerically as the value of the half-maximal inhibitory concentration (IC ₅₀ ). A lower number indicates a higher affinity. Peptides with IC50 values <50 nM are considered high affinity, those with <500 nM intermediate affinity, and <5000 nM low affinity. IC ₅₀ can be converted to a binding category as binding (1) or no binding (-1).

[0035] Положительные смоделированные данные могут включать положительные смоделированные данные взаимодействия полипептид-MHC-I. Создание положительных смоделированных данных взаимодействия полипептид-MHC-I может быть основано, по меньшей мере частично, на реальных данных взаимодействия полипептид-MHC-I. Данные взаимодействия белков могут включать показатель аффинности связывания (например, IC₅₀, категория связывания), представляющий вероятность связывания двух белков. Данные взаимодействия белков, например, данные взаимодействия полипептид-MHC-I, могут быть получены, например, из любого количества баз данных, таких как PepBDB, PepBind, Банк данных белков, База данных сети биомолекулярного взаимодействия (BIND), Cellzome (Heidelberg, Германия), База данных взаимодействующих белков (DIP), Онкологический институт Даны Фарбер (Бостон, Массачусетс, США), Справочная база данных белков человека (HPRD), Hybrigenics (Париж, Франция), Европейский институт биоинформатики (EMBL-EBI, Hinxton, Великобритания) IntAct, база данных по молекулярным взаимодействиям (MINT, Рим, Италия), база данных по взаимодействию белок-белок (PPID, Эдинбург, Великобритания) и инструмент поиска по восстановлению взаимодействия гены/белки (STRING, EMBL, Гейдельберг, Германия) и тому подобное. Данные взаимодействия белков могут храниться в структуре данных, содержащей одно или более из конкретной полипептидной последовательности, а также указания, касающегося взаимодействия полипептидов (например, взаимодействия между полипептидной последовательностью и MHC-I). В одном из вариантов осуществления структура данных может соответствовать формату HUPO PSI Molecular Interaction (PSI MI), который может содержать одну или более записей, где запись описывает одно или более взаимодействий белков. Структура данных может указывать на источник записи, например, поставщика данных. Могут быть указаны номер выпуска и дата выпуска, назначенные поставщиком данных. Перечень доступности может содержать заявления о доступности данных. В перечне экспериментов могут быть указаны описания экспериментов, в том числе по меньшей мере один набор экспериментальных параметров, обычно связанных с отдельной публикацией. В крупномасштабных экспериментах как правило в серии экспериментов варьируется только один параметр, часто затравка (интересующий белок). Формат PSI MI может указывать как постоянные параметры (например, методику эксперимента), так и переменные параметры (например, затравку). Перечень партнеров может указывать на набор партнеров (например, белки, малые молекулы и т. д.), участвующих во взаимодействии. Элемент белкового партнера может указывать на «нормальную» форму белка, обычно обнаруживаемую в базах данных, например, Swiss-Prot и TrEMBL, которые могут включать такие данные, как название, перекрестные ссылки, организм и аминокислотная последовательность. Перечень партнеров может указывать один или более элементов взаимодействия. Каждое взаимодействие может указывать на описание доступности (описание доступности данных) и описание экспериментальных условий, при которых оно было определено. Взаимодействие также может указывать на атрибут достоверности. Разработаны различные меры достоверности во взаимодействии, например, способ верификации паралогов и биологическая оценка карты взаимодействия белков (PIM). Каждое взаимодействие может указывать перечень участников, содержащий два или более белковых элементов-участников (то есть белки, участвующие во взаимодействии). Каждый белковый элемент-участник может включать описание молекулы в ее нативной форме и/или конкретной форме молекулы, в которой он участвовал во взаимодействии. Список характеристик может указывать на особенности последовательности белка, например связывающие домены или посттрансляционные модификации, относящиеся к взаимодействию. Может быть указана роль, которая описывает особую роль белка в эксперименте, например, был ли белок затравкой или добычей. Некоторые или все предыдущие элементы могут храниться в структуре данных. Примером структуры данных может быть файл XML, например:[0035] Positive simulated data may include positive simulated polypeptide-MHC-I interaction data. The creation of positive simulated polypeptide-MHC-I interaction data can be based, at least in part, on actual polypeptide-MHC-I interaction data. The protein interaction data may include a binding affinity score (eg, IC ₅₀ , binding category) representing the likelihood of two proteins binding. Protein interaction data, e.g., polypeptide-MHC-I interaction data, can be obtained, for example, from any number of databases such as PepBDB, PepBind, Protein Data Bank, Biomolecular Interaction Network Database (BIND), Cellzome (Heidelberg, Germany). ), Interacting Protein Database (DIP), Dana Farber Cancer Institute (Boston, Massachusetts, USA), Human Protein Reference Database (HPRD), Hybrigenics (Paris, France), European Bioinformatics Institute (EMBL-EBI, Hinxton, UK) IntAct, Molecular Interaction Database (MINT, Rome, Italy), Protein-Protein Interaction Database (PPID, Edinburgh, UK) and Gene/Protein Interaction Retrieval Search Tool (STRING, EMBL, Heidelberg, Germany), etc. . The protein interaction data may be stored in a data structure containing one or more of a particular polypeptide sequence, as well as an indication regarding the interaction of the polypeptides (eg, the interaction between the polypeptide sequence and MHC-I). In one embodiment, the data structure may follow the HUPO PSI Molecular Interaction (PSI MI) format, which may contain one or more entries, where the entry describes one or more protein interactions. The data structure can point to the source of the entry, such as a data provider. The release number and release date assigned by the data provider may be specified. The availability list may contain statements about the availability of data. The list of experiments may include descriptions of the experiments, including at least one set of experimental parameters, usually associated with a particular publication. In large-scale experiments, typically only one parameter is varied in a series of experiments, often the primer (protein of interest). The PSI MI format can specify both constant parameters (eg, experimental procedure) and variable parameters (eg, primer). The list of partners may indicate the set of partners (eg proteins, small molecules, etc.) involved in the interaction. The partner protein element may indicate the "normal" form of the protein, commonly found in databases such as Swiss-Prot and TrEMBL, which may include data such as name, cross-references, organism, and amino acid sequence. The list of partners may indicate one or more interaction elements. Each interaction can point to an availability description (data availability description) and a description of the experimental conditions under which it was determined. An interaction can also indicate a confidence attribute. Various measures of confidence in interactions have been developed, such as the method for verifying paralogs and the biological evaluation of a protein interaction map (PIM). Each interaction may specify a list of participants, containing two or more protein elements-participants (ie, proteins involved in the interaction). Each participating protein element may include a description of the molecule in its native form and/or the specific form of the molecule in which it participated in the interaction. The list of characteristics may indicate features of the protein sequence, such as binding domains or post-translational modifications related to the interaction. A role can be specified that describes the specific role of the protein in the experiment, such as whether the protein was a primer or a prey. Some or all of the previous elements may be stored in a data structure. An example of a data structure would be an XML file, like this:

<shortLabel>Succinate</shortLabel><shortLabel>Succinate</shortLabel>

<fullName>Succinate</fullName><fullName>Succinate</fullName>

</names></name>

</Interactor></Interactor>

</interactorList></interactorList>

<shortLabel> Succinate dehydrogenas catalysis </shortLabel> <fullName>Interaction between </fullName><shortLabel> Succinate dehydrogenas catalysis </shortLabel> <fullName>Interaction between </fullName>

</names></name>

<proteinInteractorRef ref="Succinate"/› <biologicalrole>neutral</role> </proteinParticipant> <proteinParticipant> <proteinInteractorRef ref="Fumarate"/> <role>neutral</role> </proteinParticipant> <proteinParticipant> <proteinInteractorRef ref="Succdeh"/> <role>neutral</role> </proteinParticipant> </participantList> </interaction><proteinInteractorRef ref="Succinate"/› <biologicalrole>neutral</role> </proteinParticipant> <proteinParticipant> <proteinInteractorRef ref="Fumarate"/> <role>neutral</role> </proteinParticipant> <proteinParticipant> <proteinInteractorRef ref="Succdeh"/> <role>neutral</role> </proteinParticipant> </participantList> </interaction>

</interactionList></interactionList>

[0036] GAN может включать, например, глубокую сверточную GAN (DCGAN). На фиг. 5A показан пример базовой структуры GAN. GAN представляет собой, по сути, способ обучения нейронной сети. Сети GAN обычно содержат две независимые нейронные сети, дискриминатор 502 и генератор 504, которые работают независимо и могут действовать как противодействующие стороны. Дискриминатор502 может представлять собой нейронную сеть, которую нужно обучить с использованием данных для обучения, сгенерированных посредством генератора 504. Дискриминатор 502 может содержать классификатор506, который может быть обучен выполнять задачу различения экземпляров данных. Генератор 504 может генерировать случайные экземпляры данных, подобные реальным экземплярам, но которые могут быть сгенерированы, включая характеристики, или могут быть модифицированы для включения в них характеристик, которые делают их поддельными или фальшивыми экземплярами. Нейронные сети, содержащие дискриминатор 502 и генератор 504, как правило, могут быть реализованы в виде многослойных сетей, состоящих из множества слоев обработки, таких как обработка плотности, обработка с пакетной нормализацией, обработка активации, обработка с изменением формы ввода, обработка с гауссовским исключением, обработка гауссовского шума, двумерная свертка и двумерная повышающая дискретизация. Более подробно это показано на фиг. 6 - фиг. 9 ниже.[0036] The GAN may include, for example, deep convolutional GAN (DCGAN). In FIG. 5A shows an example of a basic GAN structure. GAN is essentially a way to train a neural network. GANs typically contain two independent neural networks, a discriminator 502 and a generator 504 , that operate independently and can act as opposing parties. The discriminator 502 may be a neural network to be trained using the training data generated by the generator 504 . The discriminator 502 may include a classifier 506 that can be trained to perform the task of distinguishing between data instances. Generator 504 may generate random data instances similar to real instances, but which may be generated including characteristics, or may be modified to include characteristics that make them fake or fake instances. Neural networks comprising a discriminator 502 and a generator 504 can generally be implemented as multilayer networks consisting of multiple processing layers such as density processing, batch normalization processing, activation processing, input reshaping processing, Gaussian elimination processing. , Gaussian noise processing, 2D convolution, and 2D upsampling. This is shown in more detail in FIG. 6 - fig. 9 below.

[0037] Например, классификатор 506 может быть разработан для идентификации экземпляров данных, указывающих различные характеристики. Генератор 504 может содержать состязательную функцию508, которая может генерировать данные, предназначенные для введения в заблуждение дискриминатора 502, с применением экземпляров данных, которые являются почти корректными, но не совсем. Например, это может быть выполнено путем случайного выбора допустимого экземпляра из набора 510 для обучения (скрытое пространство) и синтеза экземпляра данных (пространства данных) путем случайного изменения его характеристик, например, путем добавления случайного шума 512. Генеративную сеть G можно рассматривать как перенос некоторого скрытого пространства в пространство данных. Формально это можно выразить как G: G (z) → R^|x|, где z ∈ R^|x| - экземпляр из скрытого пространства, x ∈ R^|x| - экземпляр из пространства данных, а | | обозначает количество измерений.[0037] For example, classifier 506 may be designed to identify data instances indicative of various characteristics. The generator 504 may include an adversarial function 508 that may generate data designed to mislead the discriminator 502 using data instances that are nearly correct, but not quite. For example, this can be done by randomly selecting a valid instance from the training set 510 (latent space) and synthesizing the data instance (data space) by randomly changing its characteristics, for example by adding random noise 512 . The generative network G can be considered as a transfer of some latent space to the data space. Formally, this can be expressed as G: G (z) → R ^|x| , where z ∈ R ^|x| is an instance from the hidden space, x ∈ R ^|x| is an instance from the data space, and | | denotes the number of measurements.

[0038] Дискриминаторную сеть, D, можно рассматривать как перенос из пространства данных в вероятность того, что данные (например, пептид) взяты из реального набора данных, а не из сгенерированного (поддельного или фальшивого) набора данных. Формально это можно выразить как: D : D(x) → (0; 1). Во время обучения в дискриминатор 502 может быть представлено посредством рандомизатора 514 случайное сочетание экземпляров 516 допустимых данных из реальных данных для обучения вместе с поддельными или фальшивыми (например, смоделированными) экземплярами данных, сгенерированными при помощи генератора 504. Для каждого экземпляра данных дискриминатор 502 может пытаться идентифицировать допустимые и поддельные или фальшивые входные данные, выдавая результат 518. Например, для фиксированного генератора G дискриминатор D может быть обучен классифицировать данные (например, пептиды) как полученные из данных для обучения (реальные, близкие к 1) или из фиксированного генератора (смоделированные, близкие к 0). Для каждого экземпляра данных дискриминатор 502 может дополнительно пытаться идентифицировать положительные или отрицательные входные данные (независимо от того, являются ли входные данные смоделированными или реальными), выдавая результат 518.[0038] The discriminator network, D, can be thought of as a transfer from data space to the probability that the data (eg, peptide) is from a real data set and not from a generated (fake or fake) data set. Formally, this can be expressed as: D : D(x) → (0; 1). During training, discriminator 502 may be presented by randomizer 514 with a random combination of valid data instances 516 from real training data along with fake or fake (eg, simulated) data instances generated by generator 504 . For each instance of data, discriminator 502 may attempt to identify valid and fake or spurious inputs, returning a result of 518 . For example, for a fixed generator G, a discriminator D can be trained to classify data (eg, peptides) as coming from training data (real, close to 1) or from a fixed generator (simulated, close to 0). For each instance of data, discriminator 502 may additionally attempt to identify positive or negative inputs (regardless of whether the inputs are simulated or real), producing a result of 518 .

[0039] На основании серии результатов 518 и дискриминатор 502, и генератор 504 могут попытаться точно настроить свои параметры для улучшения своей работы. Например, если дискриминатор 502 делает правильный прогноз, генератор 504 может обновлять свои параметры для получения лучше смоделированных экземпляров, чтобы ввести в заблуждение дискриминатор 502. Если дискриминатор 502 делает неверный прогноз, дискриминатор 502 может учиться на своей ошибке, с целью избежания подобных ошибок. Таким образом, обновление дискриминатора 502 и генератора 504 может включать в себя процесс обратной связи. Этот процесс обратной связи может быть непрерывным или инкрементным. Генератор 504 и дискриминатор 502 могут работать итеративно для оптимизации генерирования данных и классификации данных. В процессе инкрементной обратной связи состояние генератора 504 фиксируется, и дискриминатор 502 подвергается обучению до тех пор, пока не установится равновесие и не оптимизируется обучение дискриминатора 502. Например, для заданного фиксированного состояния генератора 504 дискриминатор 502 может быть обучен таким образом, чтобы быть оптимизированным относительно состояния генератора 504. Затем это оптимизированное состояние дискриминатора 502 может быть зафиксировано, и генератор 504 может подвергаться обучению для снижения точности дискриминатора до некоторого заранее определенного порогового значения. Затем состояние генератора 504 может быть зафиксировано, и дискриминатор 502 может быть обучен, и так далее.[0039] Based on the series of results 518 , both discriminator 502 and generator 504 may attempt to fine-tune their parameters to improve their performance. For example, if discriminator 502 makes a correct prediction, generator 504 may update its parameters to produce better modeled instances to mislead discriminator 502 . If the discriminator 502 makes an incorrect prediction, the discriminator 502 can learn from its error to avoid similar errors. Thus, updating the discriminator 502 and generator 504 may include a feedback process. This feedback process can be continuous or incremental. Generator 504 and discriminator 502 may operate iteratively to optimize data generation and data classification. In the incremental feedback process, the state of the generator 504 is latched and the discriminator 502 is trained until an equilibrium is established and the training of the discriminator 502 is optimized. For example, given a fixed state of generator 504 , discriminator 502 can be trained to be optimized with respect to the state of generator 504 . This optimized state of the discriminator 502 can then be captured and the generator 504 can be trained to reduce the accuracy of the discriminator to some predetermined threshold. Then the state of the generator 504 can be captured and the discriminator 502 can be trained, and so on.

[0040] В процессе непрерывной обратной связи дискриминатор не может подвергаться обучению до тех пор, пока его состояние не будет оптимизировано, а может быть обучен только для одной или небольшого количества итераций, и генератор может обновляться одновременно с дискриминатором.[0040] In a continuous feedback process, the discriminator cannot be trained until its state is optimized, but can only be trained for one or a small number of iterations, and the generator can be updated at the same time as the discriminator.

[0041] Если распределение сгенерированного смоделированного набора данных может идеально соответствовать распределению реального набора данных, то дискриминатор будет максимально запутан и не сможет отличить реальные экземпляры от поддельных (прогноз 0,5 для всех входных данных).[0041] If the distribution of the generated simulated dataset can perfectly match the distribution of the real dataset, then the discriminator will be as confused as possible and will not be able to distinguish between real and fake instances (prediction 0.5 for all inputs).

[0042] Вернемся к фиг. 1 к стадии 110; генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I может выполняться (например, посредством генератора504) до тех пор, пока дискриминатор 502 GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные. В другом аспекте генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I может выполняться (например, посредством генератора504) до тех пор, пока дискриминатор 502 GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные. Например, генератор 504 может генерировать все более точные положительные смоделированные данные взаимодействия полипептид-MHC-I, генерируя первый смоделированный набор данных, содержащий положительные смоделированные взаимодействия полипептид-MHC-I для аллеля MHC. Первый смоделированный набор данных может быть сгенерирован согласно одному или более параметрам GAN. Параметры GAN могут включать, например, одно или более из типа аллеля (например, HLA-A, HLA-B, HLA-C или их подтипы), длины аллеля (например, приблизительно от 8 до 12 аминокислот, приблизительно от 9 до 11 аминокислот), категории генерирования, сложности модели, скорости обучения, размера пакета или другого параметра.[0042] Returning to FIG. 1 to stage 110 ; generating increasingly accurate positive simulated polypeptide-MHC-I interaction data may be performed (eg, by generator 504 ) until the GAN discriminator 502 classifies positive simulated polypeptide-MHC-I interaction data as positive. In another aspect, generation of increasingly accurate positive simulated polypeptide-MHC-I interaction data may be performed (eg, by generator 504 ) until the GAN discriminator 502 classifies positive simulated polypeptide-MHC-I interaction data as positive. For example, generator 504 can generate progressively more accurate positive simulated polypeptide-MHC-I interaction data by generating a first simulated dataset containing positive simulated polypeptide-MHC-I interactions for the MHC allele. The first simulated dataset may be generated according to one or more GAN parameters. GAN parameters may include, for example, one or more of allele type (e.g., HLA-A, HLA-B, HLA-C, or subtypes thereof), allele length (e.g., about 8 to 12 amino acids, about 9 to 11 amino acids ), generation category, model complexity, learning rate, batch size, or other parameter.

[0043] На фиг. 5B представлена иллюстративная схема потока данных генератора GAN, выполненного с возможностью генерирования положительных смоделированных данных взаимодействия полипептид-MHC-I для аллеля MHC. Как показано на фиг. 5B, вектор гауссовского шума может быть введен в генератор, который выводит матрицу распределения. Входные шумы, отобранные по Гауссу, обеспечивают изменчивость, имитирующую различные паттерны связывания. Выходная матрица распределения представляет собой распределение вероятностей выбора каждой аминокислоты для каждого положения в пептидной последовательности. Матрица распределения может быть нормализована, чтобы избавиться от вариантов, которые с меньшей вероятностью обеспечивают сигналы связывания, и конкретная пептидная последовательность может быть взята из нормализованной матрицы распределения. [0043] FIG. 5B is an exemplary data flow diagram of a GAN generator configured to generate positive simulated polypeptide-MHC-I interaction data for an MHC allele. As shown in FIG. 5B , a Gaussian noise vector may be input to a generator that outputs a distribution matrix. Gaussian sampled input noises provide variability that mimics different binding patterns. The output distribution matrix is the probability distribution of the selection of each amino acid for each position in the peptide sequence. The distribution matrix can be normalized to get rid of variants that are less likely to provide binding signals, and a particular peptide sequence can be taken from the normalized distribution matrix.

[0044] Затем первый смоделированный набор данных можно объединить с положительными реальными данными взаимодействия полипептида и/или отрицательными реальными данными взаимодействия полипептида (или их комбинацией) для аллеля MHC для создания набора для обучения GAN. Дискриминатор 502 затем может определить (например, в соответствии с решающей границей), является ли взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN положительным или отрицательным и/или смоделированным или реальным. На основании точности определения, выполненного дискриминатором 502 (например, правильно ли дискриминатор 502 идентифицировал взаимодействие полипептид-MHC-I как положительное или отрицательное и/или смоделированное или реальное), один или более параметров GAN или решающую границу можно скорректировать. Например, один или более параметров GAN решающей границы могут быть скорректированы для оптимизации дискриминатора 502, чтобы увеличить возможность присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I, низкой вероятности положительным смоделированным данным взаимодействия полипептид-MHC-I и/или низкой вероятности отрицательным реальным данным взаимодействия полипептид-MHC-I. Один или более параметров GAN решающей границы могут быть скорректированы для оптимизации генератора 504, чтобы увеличить вероятность того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.[0044] The first simulated data set can then be combined with positive real polypeptide interaction data and/or negative real polypeptide interaction data (or a combination thereof) for the MHC allele to create a GAN training set. The discriminator 502 can then determine (eg, according to a decision boundary) whether the polypeptide-MHC-I interaction for the MHC allele in the GAN training dataset is positive or negative and/or simulated or real. Based on the accuracy of the determination made by the discriminator 502 (eg, whether the discriminator 502 correctly identified the polypeptide-MHC-I interaction as positive or negative and/or simulated or real), one or more GAN parameters or a decision boundary may be adjusted. For example, one or more GAN decision boundary parameters can be adjusted to optimize the discriminator 502 to increase the ability to assign a high probability to positive real polypeptide-MHC-I interaction data, a low probability to positive simulated polypeptide-MHC-I interaction data, and/or a low probability to negative real data of polypeptide-MHC-I interaction. One or more of the decision boundary GAN parameters can be adjusted to optimize generator 504 to increase the likelihood that positive simulated polypeptide-MHC-I interaction data will score high.

[0045] Процесс генерирования первого смоделированного набора данных, объединения первого набора данных с положительными реальными данными полипептидного взаимодействия и/или отрицательными реальными данными полипептидного взаимодействия для генерирования набора данных для обучения GAN, определения с помощью дискриминатора и корректировки параметров GAN и/или решающей границы можно повторять до тех пор, пока не будет соблюден первый критерий останова. Например, можно определить, соблюдается ли первый критерий останова, путем оценки выражения градиентного спуска для генератора 504. В качестве другого примера, можно определить, соблюдается ли первый критерий останова, путем оценки функции среднеквадратичной ошибки (MSE):[0045] The process of generating a first simulated data set, combining the first data set with positive real polypeptide interaction data and/or negative real polypeptide interaction data to generate a GAN training data set, determining with a discriminator and adjusting the GAN parameters and/or decision boundary can be repeat until the first stop criterion is met. For example, you can determine if the first stopping criterion is met by evaluating the gradient descent expression for generator 504 . As another example, one can determine if the first stopping criterion is met by evaluating the root mean square error (MSE) function:

[0046] В качестве другого примера, можно определить, соблюдается ли первый критерий останова, путем оценки того, достаточно ли велик градиент для продолжения осмысленного обучения. Поскольку генератор504 обновляется с помощью алгоритма обратного распространения, каждый слой генератора будет иметь один или более градиентов, например, с учетом того, что график имеет 2 слоя и каждый слой имеет 3 узла, выведение графика 1 является 1-мерным (скаляр) и данные являются 2-мерными. На этом графике 1-^й слой имеет 2*3 =6 ребер (w111, w112, w121, w122, w131, w132), подключенных к данным, и w111*data1+w112*data2=net11, и может использоваться функция активации сигмоида для выведения o11=sigmoid(net11), аналогично можно получить o12, o13, которые формируют выходные данные 1-^го слоя; 2-^й слой имеет 3*3=9 ребер (w211, w212, w213, w221, w222, w223, w231, w232, w233), соединяющихся с выходными данными 1-^го слоя, и выходные данные 2-^го слоя представляют собой o21, o22, o23, и соединяет окончательные выходные данные с 3 ребрами, которые представляют собой w311, w312, w313. [0046] As another example, it can be determined whether the first stopping criterion is met by evaluating whether the gradient is large enough to continue meaningful learning. Since the generator 504 is updated with the backpropagation algorithm, each layer of the generator will have one or more gradients, for example, given that the plot has 2 layers and each layer has 3 nodes, plot output 1 is 1-dimensional (scalar) and the data are 2-dimensional. In this graph, the ^1st layer has 2*3=6 edges (w111, w112, w121, w122, w131, w132) connected to the data and w111*data1+w112*data2=net11 and a sigmoid activation function can be used to deriving o11=sigmoid(net11), similarly, you can get o12, o13, which form the output data of the ^1st layer; The ^2nd layer has 3*3=9 edges (w211, w212, w213, w221, w222, w223, w231, w232, w233) connecting to the output of the ^1st layer, and the output of the ^2nd layer is o21 , o22, o23, and connects the final output to 3 edges which are w311, w312, w313.

[0047] У каждого w на этом графике есть градиент (команда о том, как обновить w, по сути, число, которое нужно добавить), число может быть вычислено с помощью алгоритма, называемого обратным распространением, следуя идее изменения параметра в направлении, где потеря (MSE) уменьшается, что составляет:[0047] Each w in this graph has a gradient (a command on how to update w is essentially a number to be added), the number can be calculated using an algorithm called backpropagation, following the idea of changing the parameter in the direction where loss (MSE) decreases, which is:

Где E представляет собой ошибку MSE, w _ij представляет собой i-тый параметр на j-том слое. O _j представляет собой выходные данные на j-том слое, net _j - до активации, результат умножения на j-том слое. И если значение de/dw _ij (градиент) для w _ij недостаточно велико, в результате обучение не вносит изменений для w _ij генератора 504, и обучение следует прекратить. Where E is the MSE error, w _ij is the i -th parameter on the j -th layer. O _j is the output on the j -th layer, net _j - before activation, the result of multiplication on the j -th layer. And if the value of de / dw _ij (gradient) for w _ij is not large enough, as a result, training does not change for w _ij generator 504 , and training should be stopped.

[0048] Затем, после того как дискриминатор 502 GAN классифицирует положительные смоделированные данные (например, положительные смоделированные данные взаимодействия полипептид-MHC-I) как положительные и/или реальные, на стадии 120 положительные смоделированные данные, положительные реальные данные и/или отрицательные реальные данные (или их комбинация) могут представляться в CNN до тех пор, пока CNN не классифицирует каждый тип данных как положительный или отрицательный. Положительные смоделированные данные, положительные реальные данные и/или отрицательные реальные данные могут составлять биологические данные. Положительные смоделированные данные могут включать положительные смоделированные данные взаимодействия полипептид-MHC-I. Положительные реальные данные могут включать положительные реальные данные взаимодействия полипептид-MHC-I. Отрицательные реальные данные могут включать отрицательные реальные данные взаимодействия полипептид-MHC-I. Классифицированные данные могут включать данные в отношении взаимодействия полипептид-MHC-I. Каждое из положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I может быть связано с выбранным аллелем. Например, выбранный аллель может быть выбран из группы, состоящей из A0201, A202, A203, B2703, B2705 и их комбинаций.[0048] Then, after the GAN discriminator 502 classifies the positive simulated data (e.g., positive simulated polypeptide-MHC-I interaction data) as positive and/or real, at step 120 positive simulated data, positive real data, and/or negative real data. data (or a combination of them) can be represented in the CNN as long as the CNN does not classify each type of data as positive or negative. Positive simulated data, positive real data, and/or negative real data may constitute biological data. Positive simulated data may include positive simulated polypeptide-MHC-I interaction data. Positive real data may include positive real data for polypeptide-MHC-I interaction. Negative real data may include negative real data for polypeptide-MHC-I interaction. Classified data may include data regarding the interaction of the polypeptide-MHC-I. Each of positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data can be associated with a selected allele. For example, the selected allele may be selected from the group consisting of A0201, A202, A203, B2703, B2705, and combinations thereof.

[0049] Представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в CNN может включать генерирование, например, с помощью генератора 504 в соответствии с набором параметров GAN, второго набора смоделированных данных, содержащего положительные смоделированные взаимодействия полипептид-MHC-I для аллеля MHC. Затем второй смоделированный набор данных можно объединить с положительными реальными данными взаимодействия полипептида и/или отрицательными реальными данными взаимодействия полипептида (или их комбинацией) для аллеля MHC для создания набора данных для обучения CNN.[0049] Representing positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data in a CNN may include generating, for example, using a generator 504 according to a set of parameters GAN, a second set of simulated data containing positive simulated polypeptide-MHC-I interactions for the MHC allele. The second simulated data set can then be combined with positive real polypeptide interaction data and/or negative real polypeptide interaction data (or a combination thereof) for the MHC allele to create a CNN training data set.

[0050] Затем набор данных для обучения CNN может быть представлен в CNN для обучения CNN. Затем CNN может классифицировать в соответствии с одним или более параметрами CNN взаимодействие полипептид-MHC-I как положительное или отрицательное. Это может включать выполнение посредством CNN процедуры свертки, выполнение процедуры нелинейности (например, ReLu), выполнение процедуры объединения или субдискретизации и/или выполнение процедуры классификации (например, полносвязный слой).[0050] The CNN training dataset may then be presented to the CNN for training the CNN. The CNN may then classify, according to one or more CNN parameters, the polypeptide-MHC-I interaction as positive or negative. This may include performing a convolution procedure by the CNN, performing a non-linearity procedure (eg, ReLu), performing a pooling or subsampling procedure, and/or performing a classification procedure (eg, a fully connected layer).

[0051] На основании точности классификации CNN можно скорректировать один или более параметров CNN. Процесс генерирования второго смоделированного набора данных, генерирования набора данных для обучения CNN, классификации взаимодействия полипептид-MHC-I и корректировки одного или более параметров CNN может повторяться до тех пор, пока не будет соблюден второй критерий останова. Например, можно определить, соблюдается ли второй критерий останова, путем оценки функции среднеквадратичной ошибки (MSE):[0051] Based on the classification accuracy of the CNN, one or more parameters of the CNN may be adjusted. The process of generating a second simulated dataset, generating a CNN training dataset, classifying the polypeptide-MHC-I interaction, and adjusting one or more CNN parameters may be repeated until the second stopping criterion is met. For example, you can determine if the second stopping criterion is met by evaluating the mean squared error (MSE) function:

[0052] Затем, на стадии 130, положительные реальные данные и/или отрицательные реальные данные могут быть представлены в CNN для генерирования оценок прогноза. Положительные реальные данные и/или отрицательные реальные данные могут содержать биологические данные, такие как данные взаимодействия белков, включая, например, данные об аффинности связывания. Положительные реальные данные могут включать положительные реальные данные взаимодействия полипептид-MHC-I. Отрицательные реальные данные могут включать отрицательные реальные данные взаимодействия полипептид-MHC-I. Оценки прогноза могут представлять собой оценки аффинности связывания. Оценки прогноза могут включать вероятность того, что положительные реальные данные взаимодействия полипептид-MHC-I классифицированы как положительные данные взаимодействия полипептид-MHC-I. Это может включать представление в CNN реального набора данных и классификацию посредством CNN в соответствии с параметрами CNN взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного.[0052] Next, at step 130 , positive real data and/or negative real data may be presented to the CNN to generate prediction scores. Positive real data and/or negative real data may contain biological data, such as protein interaction data, including, for example, binding affinity data. Positive real data may include positive real data for polypeptide-MHC-I interaction. Negative real data may include negative real data for polypeptide-MHC-I interaction. The prediction scores may be binding affinity scores. Prediction scores may include the likelihood that positive real polypeptide-MHC-I interaction data is classified as positive polypeptide-MHC-I interaction data. This may include presenting the actual data set to the CNN and classifying by the CNN according to the CNN parameters of the polypeptide-MHC-I interaction for the MHC allele as positive or negative.

[0053] На стадии 140 можно определить, обучена ли GAN, на основании оценок прогноза. Это может включать определение того, обучена ли GAN, путем определения точности CNN на основе оценок прогноза. Например, сеть GAN может быть определена как обученная, если соблюден третий критерий останова. Определение того, соблюден ли третий критерий останова, может включать определение того, соблюдена ли функция площади под кривой (AUC). Определение того, обучена ли GAN, может включать сравнение одной или более оценок прогноза с пороговым значением. Если GAN обучена, как определено на стадии 140, то GAN может дополнительно выводиться на стадии 150. Если GAN не определена как обученная, GAN можно вернуть к стадии 110. [0053] At step 140 , it can be determined whether the GAN has been trained based on the prediction scores. This may include determining if the GAN is trained by determining the accuracy of the CNN based on the prediction scores. For example, a GAN can be defined as trained if the third stopping criterion is met. Determining whether the third stopping criterion is met may include determining whether the area under the curve (AUC) function is met. Determining whether the GAN has been trained may include comparing one or more prediction scores to a threshold. If the GAN is trained as determined in step 140 , then the GAN may be further inferred in step 150 . If the GAN is not determined to be trained, the GAN can be returned to step 110 .

[0054] После обучения CNN и GAN набор данных (например, неклассифицированный набор данных) может быть представлен в CNN. Набор данных может содержать неклассифицированные биологические данные, такие как неклассифицированные данные взаимодействия белков. Биологические данные могут включать множество кандидатных взаимодействий полипептид-MHC-I. CNN может генерировать прогнозируемую аффинность связывания и/или классифицировать каждое из кандидатных взаимодействий полипептид-MHC-I как положительное или отрицательное. Затем можно синтезировать полипептид с применением кандидатных взаимодействий полипептид-MHC-I, классифицированных как положительные. Например, полипептид может содержать опухолеспецифический антиген. В качестве другого примера полипептид может содержать аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем MHC.[0054] After training the CNN and the GAN, the data set (eg, the unclassified data set) can be represented in the CNN. The dataset may contain unclassified biological data, such as unclassified protein interaction data. Biological data may include many candidate polypeptide-MHC-I interactions. The CNN can generate a predicted binding affinity and/or classify each of the candidate polypeptide-MHC-I interactions as positive or negative. A polypeptide can then be synthesized using candidate polypeptide-MHC-I interactions classified as positive. For example, the polypeptide may contain a tumor-specific antigen. As another example, the polypeptide may contain an amino acid sequence that specifically binds to the MHC-I protein encoded by the selected MHC allele.

[0055] Более подробная примерная блок-схема процесса 200 прогнозирования с применением генеративно-состязательной сети (GAN) показана на фиг. 2 - фиг. 4. Стадии 202-214 в целом соответствуют стадии 110, показанной на фиг. 1. Процесс 200 может начинаться с 202, в котором осуществляется настройка обучения GAN, например, путем установки ряда параметров 204-214 для управления обучением 216 GAN. Примеры параметров, которые могут быть установлены, могут включать тип 204 аллеля, длину 206 аллеля, категорию 208 генерирования, сложность 210 модели, скорость 212 обучения и размер 214 пакета. Параметры 204 типа аллеля могут предоставлять возможность указывать один или более типов аллелей, которые должны быть включены в обработку GAN. Примеры таких типов аллелей представлены на фиг. 12. Например, указанные аллели могут включать A0201, A0202, A0203, B2703, B2705 и т. д., показанные на фиг. 12. Параметры 206 длины аллеля могут предоставлять возможность указывать длины пептидов, которые могут связываться с каждым указанным типом 204 аллеля. Примеры таких длин аллелей показаны на фиг. 13. Например, для A0201 указанная длина отображается как 9 или 10, для A0202 указанная длина отображается как 9, для A0203 указанная длина отображается как 9 или 10, для B2705 указанная длина отображается как 9 и т. д. Параметры 208 категории генерирования может предоставить возможность определять категории данных, которые должны быть сгенерированы во время обучения GAN 216. Например, могут быть указаны категории связывание/отсутствие связывания. Набор параметров, соответствующих сложности 210 модели, может предоставить возможность определять аспекты сложности моделей, которые будут использоваться во время обучения 216 GAN. Примеры таких аспектов могут включать количество слоев, количество узлов на слой, размер окна для каждого сверточного слоя и т. д. Параметры скорости 212 обучения могут предоставлять возможность указывать одну или более скоростей, с которыми обработка обучения, выполняемая при обучении 216 GAN, должна сходиться. Примеры таких параметров скорости обучения могут включать 0,0015, 0,015, 0,01, которые представляют собой безразмерные значения, определяющие относительные скорости обучения. Параметры 214 размера пакета могут предоставлять возможность указывать размеры пакетов данных 218 для обучения, которые должны быть обработаны во время обучения 216 GAN. Примеры таких размеров пакетов могут включать в себя пакеты, содержащие 64 или 128 экземпляров данных. Обработка 202 настройки обучения GAN может собирать параметры 204-214 обучения, обрабатывать их так, чтобы они были совместимы с обучением 216 GAN, и вводить обработанные параметры в обучение 216 GAN или сохранять обработанные параметры в соответствующих файлах или местах для использования в обучении 216 GAN.[0055] A more detailed exemplary flow diagram of a prediction process 200 using a generative adversarial network (GAN) is shown in FIG . 2 - fig. 4 . Steps 202-214 generally correspond to step 110 shown in FIG. 1 . Process 200 may begin at 202 in which GAN training is configured, such as by setting a set of parameters 204-214 to control GAN training 216 . Examples of parameters that can be set may include allele type 204 , allele length 206 , generation category 208 , model complexity 210 , learning rate 212 , and batch size 214 . The allele type parameters 204 may provide the ability to specify one or more allele types to be included in the GAN processing. Examples of these types of alleles are shown in Fig. 12 . For example, these alleles may include A0201, A0202, A0203, B2703, B2705, etc. shown in FIG. 12 . The allele length parameters 206 may provide the ability to specify the lengths of peptides that can bind to each specified allele type 204 . Examples of such allele lengths are shown in FIG. 13 . For example, for A0201, the specified length is displayed as 9 or 10, for A0202, the specified length is displayed as 9, for A0203, the specified length is displayed as 9 or 10, for B2705 , the specified length is displayed as 9, and so on. categories of data to be generated during GAN training 216 . For example, binding/non-binding categories can be specified. A set of parameters corresponding to model complexity 210 may provide the ability to define aspects of model complexity to be used during GAN training 216 . Examples of such aspects may include the number of layers, the number of nodes per layer, the window size for each convolutional layer, etc. The learning rate parameters 212 may provide the ability to specify one or more rates at which the learning processing performed in GAN training 216 should converge. . Examples of such learning rate parameters may include 0.0015, 0.015, 0.01, which are dimensionless values defining relative learning rates. The packet size parameters 214 may provide the ability to specify the sizes of training data packets 218 to be processed during GAN training 216 . Examples of such packet sizes may include packets containing 64 or 128 data instances. GAN training setup processing 202 may collect training parameters 204-214 , process them to be compatible with GAN training 216 , and input the processed parameters into GAN training 216 or store the processed parameters in appropriate files or locations for use in GAN training 216 .

[0056] На стадии 216 может быть начато обучение GAN. Стадии 216-228 также в целом соответствуют стадии 110, показанной на фиг. 1. Обучение 216 GAN может принимать данные 218 для обучения, например, пакетами, как указано посредством параметров 214 размера пакета. Данные 218 для обучения могут включать данные, представляющие пептиды с разными обозначениями аффинности связывания (связываются или нет) для белковых комплексов MHC-I, кодируемых разными типами аллелей, такими как типы аллелей HLA и т. д. Например, такие данные для обучения могут включать информацию, относящуюся к биннингу и отбору положительного/отрицательного взаимодействия MHC-пептид. Данные для обучения могут включать одно или более из положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I.[0056] At 216 , GAN training may begin. Steps 216-228 also generally correspond to step 110 shown in FIG. 1 . Training 216 GAN can receive data 218 for training, for example, in batches, as indicated by the parameters 214 packet size. The training data 218 may include data representing peptides with different binding affinity designations (bind or not) for MHC-I protein complexes encoded by different allele types, such as HLA allele types, etc. For example, such training data may include information related to binning and selection of positive/negative MHC-peptide interaction. The training data may include one or more of positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data.

[0057] На стадии 220 процесс градиентного спуска может быть применен к принятым данным 218 для обучения. Градиентный спуск представляет собой итеративный процесс для выполнения машинного обучения, например нахождения минимума или локального минимума функции. Например, чтобы найти минимум или локальный минимум функции с использованием градиентного спуска, значения переменных обновляются с шагом, пропорциональным отрицательному значению градиента (или приблизительного градиента) функции в текущей точке. Для машинного обучения пространство параметров можно искать с помощью градиентного спуска. Различные стратегии градиентного спуска могут находить разные «места назначения» в пространстве параметров, ограничивая тем самым прогнозируемые ошибки до приемлемой степени. В вариантах осуществления процесс градиентного спуска может адаптировать скорость обучения к входным параметрам, например, выполняя большие обновления для редко повторяющихся параметров и меньшие обновления для часто повторяющихся параметров. Такие варианты осуществления могут подходить для работы с разреженными данными. Например, стратегия градиентного спуска, известная как RMSprop, может обеспечить улучшенную эффективность с наборами данных о связывании пептидов.[0057] At 220 , a gradient descent process may be applied to the received data 218 for training. Gradient descent is an iterative process for performing machine learning, such as finding the minimum or local minimum of a function. For example, to find the minimum or local minimum of a function using gradient descent, the values of the variables are updated in increments proportional to the negative value of the gradient (or approximate gradient) of the function at the current point. For machine learning, the parameter space can be searched using gradient descent. Different gradient descent strategies can find different "destinations" in the parameter space, thus limiting the predicted errors to an acceptable degree. In embodiments, the gradient descent process can adapt the learning rate to the input parameters, for example, by performing large updates for rarely repeating parameters and smaller updates for frequently repeating parameters. Such embodiments may be suitable for dealing with sparse data. For example, a gradient descent strategy known as RMSprop can provide improved performance with peptide binding datasets.

[0058] На стадии 221 может применяться измерение потерь для измерения потерь или «расходов» на обработку. Примеры таких измерений потерь могут включать среднеквадратичную ошибку или перекрестную энтропию.[0058] At 221 , loss measurement may be applied to measure the loss or "cost" of processing. Examples of such loss measurements may include root mean square error or cross entropy.

[0059] На стадии 222 может быть определено, были ли соблюдены критерии выхода для градиентного спуска. Поскольку градиентный спуск является итеративным процессом, могут быть указаны критерии для определения момента, когда итерационный процесс должен остановиться, указывая, что генератор 228 способен генерировать положительные смоделированные данные взаимодействия полипептид-MHC-I, которые классифицируются дискриминатором 226 как положительные и/или реальные. На стадии 222, если определено, что критерии выхода для градиентного спуска не были соблюдены, то процесс может возвращаться к 220, и процесс градиентного спуска продолжается. На стадии 222, если определено, что были соблюдены критерии выхода для градиентного спуска, процесс может продолжаться со стадии 224, на которой дискриминатор 226 и генератор 228 могут быть обучены, например, как описано со ссылкой на фиг. 5A. На стадии 224 могут быть сохранены обученные модели для дискриминатора 226 и генератора 228. Эти сохраненные модели могут включать в себя данные, определяющие структуру и коэффициенты, составляющие модели для дискриминатора 226 и генератора 228. Сохраненные модели предоставляют возможность использовать генератор 228 для генерирования фальшивых данных и дискриминатор 226 для идентификации данных, и при надлежащем обучении предоставлять точные и применимые результаты от дискриминатора 226 и генератора 228.[0059] At block 222 , it may be determined whether the exit criteria for gradient descent has been met. Because gradient descent is an iterative process, criteria can be specified for determining when the iterative process should stop by indicating that generator 228 is capable of generating positive simulated polypeptide-MHC-I interaction data that is classified by discriminator 226 as positive and/or real. At step 222 , if it is determined that the exit criteria for gradient descent has not been met, then the process may return to 220 , and the gradient descent process continues. At step 222 , if it is determined that the exit criteria for gradient descent has been met, the process may continue to step 224 , where discriminator 226 and generator 228 can be trained, for example, as described with reference to FIG. 5A . At 224 , the trained models for discriminator 226 and generator 228 may be stored. These stored models may include data defining the structure and coefficients that make up the models for discriminator 226 and generator 228 . Stored models provide the ability to use generator 228 to generate fake data and discriminator 226 to identify data, and with proper training, provide accurate and usable results from discriminator 226 and generator 228 .

[0060] Затем процесс может продолжаться со стадий 230-238, которые в целом соответствуют стадии 120 на фиг. 1. На стадиях 230-238 сгенерированные экземпляры данных (например, положительные смоделированные данные взаимодействия полипептид-MHC-I) могут быть получены с использованием обученного генератора 228. Например, на стадии 230 процесс генерирования GAN может быть настроен, например, путем установки ряда параметров 232, 234 для управления генерированием 236 GAN. Примеры параметров, которые могут быть установлены, могут включать размер 232 генерирования и размер 234 дискретизации. Параметры 232 размера генерирования могут обеспечивать возможность указания размера генерируемого набора данных. Например, размер генерируемого набора данных (положительные смоделированные данные взаимодействия полипептид-MHC-I) может быть установлен как в 2,5 раза больший размера реальных данных (положительные реальные данные взаимодействия полипептид-MHC-I и/или отрицательные реальные данные взаимодействия полипептид-MHC-I). В этом примере, если исходные реальные данные в пакете равны 64, то соответствующие генерируемые смоделированные данные в пакете равны 160. Параметры 234 размера дискретизации могут предоставлять возможность указывать размер дискретизации, которая будет использоваться для генерирования набора данных. Например, этот параметр может быть задан как процентиль отсечения для выбора 20 аминокислот в последнем слое генератора. Например, указание 90-го процентиля означает, что все точки ниже 90-го процентиля будут установлены на 0, а остальные могут быть нормализованы с помощью функции нормализации, такой как нормализованная экспоненциальная функция (softmax). На стадии 236 обученный генератор 228 может использоваться для генерирования набора 236 данных, который может использоваться для обучения модели CNN.[0060] The process may then continue from steps 230-238 which generally correspond to step 120 in FIG. 1 . In steps 230-238 , generated data instances (eg, positive simulated polypeptide-MHC-I interaction data) can be generated using a trained generator 228 . For example, at step 230 , the GAN generation process can be customized, for example, by setting a number of parameters 232 , 234 to control GAN generation 236 . Examples of parameters that may be set may include a generation size 232 and a sampling size 234 . Generate size options 232 may allow the size of the generated data set to be specified. For example, the size of the generated data set (positive simulated polypeptide-MHC-I interaction data) can be set to 2.5 times the size of the real data (positive real polypeptide-MHC-I interaction data and/or negative real polypeptide-MHC interaction data). -I). In this example, if the original real data in the batch is 64, then the corresponding generated simulated data in the batch is 160 . Sample size parameters 234 may provide the ability to specify the sample size that will be used to generate the data set. For example, this parameter can be given as a cutoff percentile for the 20 amino acid selection in the last layer of the generator. For example, specifying the 90th percentile means that all points below the 90th percentile will be set to 0, and the rest can be normalized using a normalization function such as the normalized exponential function (softmax). At step 236 , the trained generator 228 may be used to generate a dataset 236 that may be used to train the CNN model.

[0061] На стадии 240 экземпляры 238 смоделированных данных, созданные обученным генератором 228, и экземпляры реальных данных из исходного набора данных могут быть смешаны для формирования нового набора данных 240 для обучения, что в целом соответствует стадии 120 на фиг. 1. Данные 240 для обучения могут включать одно или более из положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I. На стадиях 242-262 модель 262 классификатора сверточной нейронной сети (CNN) может быть обучена с использованием смешанных данных 240 для обучения. На стадии 242 обучение CNN может быть настроено, например, путем установки ряда параметров 244-252 для управления обучением CNN 254. Примеры параметров, которые могут быть установлены, могут включать тип 244 аллеля, длину 246 аллеля, сложность 248 модели, скорость 250 обучения и размер 252 пакета. Параметры 244 типа аллеля могут предоставлять возможность указывать один или более типов аллелей, которые должны быть включены в обработку CNN. Примеры таких типов аллелей представлены на фиг. 12. Например, указанные аллели могут включать A0201, A0202, B2703, B2705 и т. д., показанные на фиг. 12. Параметры 246 длины аллеля могут предоставлять возможность указывать длины пептидов, которые могут связываться с каждым указанным типом 244 аллеля. Примеры таких длин аллелей показаны на фиг. 13А. Например, для A0201 указанная длина отображается как 9 или 10, для A0202 указанная длина отображается как 9, для B2705 указанная длина отображается как 9 и т. д. Набор параметров, соответствующих сложности 248 модели, может предоставить возможность определять аспекты сложности моделей, которые будут использоваться во время обучения 254 CNN. Примеры таких аспектов могут включать количество слоев, количество узлов на слой, размер окна для каждого сверточного слоя и т. д. Параметры 250 скорости обучения могут предоставлять возможность указывать одну или более скоростей, с которыми обработка обучения, выполняемая при обучении CNN 254, должна сходиться. Примеры таких параметров скорости обучения могут включать 0,001, который является безразмерным параметром, определяющим относительную скорость обучения. Параметры 252 размера пакета могут предоставлять возможность указывать размеры пакетов данных 240 для обучения, которые должны быть обработаны во время обучения 254 CNN. Например, если набор данных для обучения разделен на 100 равных частей, размер пакета может быть целым числом от размера обучающих данных (train_data_size)/100. Обработка 242 настройки обучения CNN может собирать параметры 244-252 обучения, обрабатывать их так, чтобы они были совместимы с обучением 254 CNN, и вводить обработанные параметры в обучение 254 CNN или сохранять обработанные параметры в соответствующих файлах или местах для использования в обучении 254 CNN.[0061] At step 240 , the simulated data instances 238 generated by the trained generator 228 and the real data instances from the original dataset may be mixed to form a new training dataset 240 , which generally corresponds to step 120 in FIG. 1 . The training data 240 may include one or more of positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data. In steps 242 - 262 , a convolutional neural network (CNN) classifier model 262 may be trained using the blended data 240 for training. At step 242 , the training of the CNN may be customized, for example, by setting a set of parameters 244 - 252 to control the training of the CNN 254 . Examples of parameters that can be set may include allele type 244 , allele length 246 , model complexity 248 , training rate 250 , and batch size 252 . The allele type parameters 244 may provide the ability to specify one or more allele types to be included in the CNN processing. Examples of these types of alleles are shown in Fig. 12 . For example, these alleles may include A0201, A0202, B2703, B2705, etc. shown in FIG. 12 . Allele length parameters 246 may provide the ability to specify the lengths of peptides that can bind to each specified allele type 244 . Examples of such allele lengths are shown in FIG. 13A . For example, for A0201 the specified length is displayed as 9 or 10, for A0202 the specified length is displayed as 9, for B2705 the specified length is displayed as 9, and so on. be used during training of 254 CNNs. Examples of such aspects may include the number of layers, the number of nodes per layer, the window size for each convolutional layer, etc. The learning rate parameters 250 may provide the ability to specify one or more rates at which the learning processing performed when training the CNN 254 should converge. . Examples of such learning rate parameters may include 0.001, which is a dimensionless parameter that defines the relative learning rate. Packet size parameters 252 may provide the ability to specify the sizes of training data packets 240 to be processed during CNN training 254 . For example, if the training dataset is divided into 100 equal parts, the batch size can be an integer of the training data size (train_data_size)/100. CNN training setting processing 242 may collect training parameters 244-252 , process them to be compatible with CNN training 254 , and input the processed parameters into CNN training 254 or store the processed parameters in appropriate files or locations for use in CNN training 254 .

[0062] На стадии 254 может быть начато обучение CNN. Обучение 254 CNN может принимать данные 240 для обучения, например, пакетами, как указано посредством параметров 252 размера пакета. На стадии 256процесс градиентного спуска может быть применен к принятым данным 240 для обучения. Как описано выше, градиентный спуск представляет собой итеративный процесс для выполнения машинного обучения, например нахождения минимума или локального минимума функции. Например, стратегия градиентного спуска, известная как RMSprop, может обеспечить улучшенную эффективность с наборами данных о связывании пептидов.[0062] At 254 , CNN training may begin. CNN training 254 may receive data 240 for training, for example, in bursts, as indicated by packet size parameters 252 . At 256 , a gradient descent process may be applied to the received data 240 for training. As described above, gradient descent is an iterative process for performing machine learning, such as finding the minimum or local minimum of a function. For example, a gradient descent strategy known as RMSprop can provide improved performance with peptide binding datasets.

[0063] На стадии 257 может применяться измерение потерь для измерения потерь или «расходов» на обработку. Примеры таких измерений потерь могут включать среднеквадратичную ошибку или перекрестную энтропию. [0063] At 257 , loss measurement can be used to measure the loss or "cost" of processing. Examples of such loss measurements may include root mean square error or cross entropy.

[0064] На стадии 258 может быть определено, были ли соблюдены критерии выхода для градиентного спуска. Поскольку градиентный спуск является итеративным процессом, могут быть указаны критерии для определения момента, когда итерационный процесс должен остановиться. На стадии 258, если определено, что критерии выхода для градиентного спуска не были соблюдены, то процесс может возвращаться к 256, и процесс градиентного спуска продолжается. На стадии 258, если определено, что критерии выхода для градиентного спуска соблюдены (что указывает на то, что gCNN способна классифицировать положительные (реальные или смоделированные) данные взаимодействия полипептид-MHC-I как положительные и/или отрицательные реальные данные взаимодействия полипептид-MHC-I как отрицательные), затем процесс может продолжиться с 260, где модель 262 классификатора CNN может быть сохранена как модель 262 классификатора CNN. Эти сохраненные модели могут включать в себя данные, определяющие структуру и коэффициенты, которые составляют модель 262 классификатора CNN. Сохраненные модели предоставляют возможность использовать модель 262 классификатора CNN для классификации пептидных связываний экземпляров входных данных и, при правильном обучении, предоставлять точные и применимые результаты из модели 262 классификатора CNN. На стадии 264 обучение CNN завершается.[0064] At block 258 , it may be determined whether the exit criteria for gradient descent has been met. Because gradient descent is an iterative process, criteria can be specified to determine when the iterative process should stop. At step 258 , if it is determined that the exit criteria for gradient descent has not been met, then the process may return to 256 , and the gradient descent process continues. At step 258 , if it is determined that the exit criteria for gradient descent is met (indicating that the gCNN is able to classify positive (real or simulated) polypeptide-MHC-I interaction data as positive and/or negative real polypeptide-MHC- I as negative), then the process may continue to 260 where the CNN classifier model 262 may be stored as the CNN classifier model 262 . These stored models may include data defining the structure and coefficients that make up the CNN classifier model 262 . The stored models provide the ability to use the CNN classifier model 262 to classify peptide bindings of input data instances and, if properly trained, provide accurate and usable results from the CNN classifier model 262 . At step 264 , CNN training ends.

[0065] На стадиях 266-280 модель 262 классификатора обученной сверточной нейронной сети (CNN) может использоваться для предоставления и оценки прогнозов на основе тестовых данных (тестовые данные могут содержать одно или более из положительных реальных данных взаимодействия полипептид-MHC-I и/или отрицательных реальных данных взаимодействия полипептид-MHC-I) для измерения эффективности всей модели GAN, что в целом соответствует стадии 130 на фиг. 1. На стадии 270 критерии выхода GAN могут быть установлены, например, путем установки ряда параметров 272-276 для управления процессом 266 оценки. Примеры параметров, которые могут быть установлены, могут включать параметры 272 точности прогнозирования, параметры 274 достоверности прогнозирования и параметры 276 потерь. Параметры 272 точности прогнозирования могут обеспечивать возможность определять точность прогнозов, которые должны быть предоставлены посредством оценки 266. Например, пороговое значение точности для прогнозирования реальной положительной категории может быть больше или равно 0,9. Параметры 274 достоверности прогнозирования могут обеспечивать возможность указывать уровни достоверности (например, нормализация softmax) для прогнозов, которые должны быть предоставлены посредством оценки 266. Например, пороговое значение достоверности прогнозирования поддельной или фальшивой категории может быть установлено на значение большее или равное 0,4 и большее или равное 0,6 для реальной отрицательной категории. Обработка 270 настройки критериев выхода GAN может собирать параметры 272-276 обучения, обрабатывать их так, чтобы они были совместимы с прогнозной оценкой 266 GAN, и вводить обработанные параметры в прогнозную оценку 266 GAN или сохранять обработанные параметры в соответствующих файлах или местах для использования в прогнозной оценке 266 GAN. На стадии 266 может быть начата прогнозная оценка GAN. Прогнозная оценка 266 GAN может принимать тестовые данные 268. [0065] In steps 266 - 280 , a trained convolutional neural network (CNN) classifier model 262 may be used to provide and evaluate predictions based on test data (the test data may comprise one or more of positive real-world polypeptide-MHC-I interaction data and/or negative real polypeptide-MHC-I interaction data) to measure the performance of the entire GAN model, which generally corresponds to step 130 in FIG. 1 . At step 270 , the GAN exit criteria may be set, for example, by setting a set of parameters 272 - 276 to control the evaluation process 266 . Examples of parameters that may be set may include prediction accuracy parameters 272 , prediction confidence parameters 274 , and loss parameters 276 . The prediction accuracy parameters 272 may provide the ability to determine the accuracy of the predictions to be provided by the score 266 . For example, the accuracy threshold for predicting a real positive category may be greater than or equal to 0.9. Prediction confidence parameters 274 may provide the ability to specify levels of confidence (eg, softmax normalization) for predictions to be provided by estimation 266 . For example, the fake or spurious category prediction confidence threshold may be set to a value greater than or equal to 0.4 and greater than or equal to 0.6 for the real negative category. The GAN output criteria tuning processing 270 may collect the training parameters 272-276 , process them so that they are compatible with the GAN predictive score 266 , and input the processed parameters into the GAN predictive score 266 , or store the processed parameters in appropriate files or locations for use in the predictive score. 266 GAN estimate. At 266 , a GAN predictive evaluation may be initiated. The GAN predictive score 266 may receive test data 268 .

[0066] На стадии 267 может быть выполнено измерение площади под кривой рабочих характеристик приемника (ROC) (AUC). AUC представляет собой нормализованную меру эффективности классификации. Посредством AUC измеряют вероятность того, что с учетом двух случайных точек - одной из положительного и одной из отрицательного класса - классификатор оценит точку из положительного класса выше, чем точку из отрицательного. На самом деле таким образом измеряется эффективность ранжирования. AUC основывается на идее того, что, чем больше классов прогнозирования, которые смешаны между собой (в выходном пространстве классификатора), тем хуже работает классификатор. ROC сканирует выходное пространство классификатора с движущейся границей. В каждой точке сканирования записываются ложноположительные результаты (FPR) и истинноположительные результаты (TPR) (как нормализованная мера). Чем больше разница между двумя значениями, тем меньше смешиваются точки и тем лучше они классифицируются. После получения всех пар FPR и TPR их можно отсортировать и построить кривую ROC. AUC - это площадь под этой кривой. [0066] At step 267 , a measurement of the area under the receiver operating characteristic curve (ROC) (AUC) may be performed. AUC is a normalized measure of classification efficiency. AUC measures the probability that, given two random points, one from the positive class and one from the negative class, the classifier will rate a point from a positive class higher than a point from a negative class. In fact, this is how ranking performance is measured. AUC is based on the idea that the more prediction classes that are mixed together (in the output space of the classifier), the worse the classifier performs. ROC scans the output space of a classifier with a moving boundary. At each scan point, false positives (FPR) and true positives (TPR) are recorded (as a normalized measure). The greater the difference between the two values, the less the points mix and the better they are classified. Once all FPR and TPR pairs have been obtained, they can be sorted and the ROC curve plotted. AUC is the area under this curve.

[0067] На стадии 278 может быть определено, были ли соблюдены критерии выхода для градиентного спуска, или нет, что в целом соответствует стадии 140 на фиг. 1 Поскольку градиентный спуск является итеративным процессом, могут быть указаны критерии для определения момента, когда итерационный процесс должен остановиться. На стадии 278, если определено, что критерии выхода для процесса 266 оценки не были соблюдены, тогда процесс может вернуться к 220, и процесс 220-264 обучения GAN и процесс 266 оценки продолжаются. Таким образом, когда критерий выхода не соблюдается, процесс будет возвращен к обучению GAN (в целом соответствующему возвращению к стадии 110 на фиг. 1) для создания генератора с лучшими результатами. На стадии 278, если определено, что соблюдены критерии выхода из процесса 266 оценки (что указывает на то, что CNN классифицировала положительные реальные данные взаимодействия полипептид-MHC-I как положительные и/или отрицательные реальные данные взаимодействия полипептид-MHC-I как отрицательные), затем процесс может продолжаться на 280, где обработка с прогнозной оценкой и процесс 200 завершаются, что в целом соответствует стадии 150 на фиг. 1.[0067] At step 278 , it can be determined whether the exit criteria for gradient descent has been met or not, which generally corresponds to step 140 in FIG. 1 Because gradient descent is an iterative process, criteria can be specified to determine when the iterative process should stop. At step 278 , if it is determined that the exit criteria for the evaluation process 266 were not met, then the process may return to 220 , and the GAN training process 220-264 and the evaluation process 266 continue. Thus, when the exit criterion is not met, the process will return to GAN training (generally corresponding to returning to step 110 in FIG. 1 ) to create a generator with better results. At step 278 , if it is determined that the exit criteria from evaluation process 266 are met (indicating that CNN has classified positive real polypeptide-MHC-I interaction data as positive and/or negative real polypeptide-MHC-I interaction data as negative) , then the process may continue to 280 , where the predictive evaluation processing and process 200 are terminated, which generally corresponds to step 150 in FIG. 1 .

[0068] Пример варианта осуществления внутренней структуры обработки генератора 228 показан на фиг. 6 - фиг. 7. В этом примере каждый блок обработки может выполнять указанный тип обработки и может выполняться в показанном порядке. Следует отметить, что это всего лишь пример. В вариантах осуществления типы выполняемой обработки, а также порядок, в котором выполняется обработка, могут быть изменены. [0068] An exemplary embodiment of the internal processing structure of generator 228 is shown in FIG. 6 - fig. 7 . In this example, each processing unit may perform the specified type of processing and may be performed in the order shown. It should be noted that this is just an example. In embodiments, the types of processing performed, as well as the order in which processing is performed, may be changed.

[0069] На фиг. 6 - фиг. 7описывается примерный поток обработки для генератора 228. Поток обработки является только примером и не предназначен для ограничения. Обработка, включенная в генератор 228, может начинаться с обработки 602 плотности, при которой входные данные вводятся в нейронный слой с прямой связью для оценки пространственного изменения плотности входных данных. На 604 может выполняться обработка с пакетной нормализацией. Например, обработка с нормализацией может включать корректировку значений, измеренных в разных масштабах, с приведением к общему масштабу, для корректировки всех распределений вероятностей значений данных для согласования. Такая нормализация может обеспечить повышенную скорость сходимости, поскольку исходные (глубокие) нейронные сети чувствительны к изменениям на слоях в начале, а параметр направления оптимизируется, чтобы можно было отвлечься попыткой снизить ошибки для выбросов в данных в начале. Пакетная нормализация упорядочивает градиенты от этих отвлекающих факторов и, следовательно, выполняется быстрее. На 606 может выполняться обработка активации. Например, обработка активации может включать в себя tanh, сигмоидную функцию, ReLU (выпрямленные линейные блоки) или ступенчатую функцию и т. д. Например, ReLU имеет выход 0, если вход меньше 0, и необработанный вход в противном случае. Он проще (требует меньше вычислений) по сравнению с другими функциями активации и, следовательно, может обеспечить ускоренное обучение. На стадии 608 может выполняться обработка с изменением формы ввода. Например, такая обработка может помочь преобразовать форму (размеры) ввода в целевую форму, которая может быть принята в качестве допустимого ввода на следующей стадии. На стадии 610 может выполняться обработка с гауссовским исключением. Исключение представляет собой методику регуляризации для уменьшения переобучения в нейронных сетях на основе определенных данных обучения. Исключение может быть выполнено путем удаления узлов нейронной сети, которые могут вызывать или усугублять переобучение. Обработка с гауссовским исключением может использовать гауссовское распределение для определения узлов, которые необходимо удалить. Такая обработка может создавать шум в виде исключения, но может сохранять среднее и дисперсию входных данных относительно их исходных значений на основе гауссовского распределения, чтобы гарантировать свойство самонормализации даже после исключения. [0069] FIG. 6 - fig. 7 describes an example processing flow for generator 228 . The processing flow is only an example and is not intended to be limiting. The processing included in generator 228 may begin with density processing 602 , in which input data is fed into a feed-forward neural layer to estimate the spatial variation in input data density. At 604 , batch normalization processing may be performed. For example, normalization processing may include adjusting values measured at different scales to a common scale to adjust all probability distributions of data values for matching. This normalization can provide an increased rate of convergence because the original (deep) neural networks are sensitive to changes in the layers at the beginning, and the direction parameter is optimized to be distracted by trying to reduce errors for outliers in the data at the beginning. Batch normalization arranges the gradients away from these distractions and is therefore faster. At 606 , activation processing may be performed. For example, activation processing may include tanh, a sigmoid function, ReLU (rectified linear units), or a step function, etc. For example, ReLU has an output of 0 if the input is less than 0, and a raw input otherwise. It is simpler (requires less computation) compared to other activation functions and thus can provide faster learning. At block 608 , input reshape processing may be performed. For example, such processing can help convert the input shape(s) to a target shape that can be accepted as valid input in the next step. At 610 , Gaussian elimination processing may be performed. Dropout is a regularization technique to reduce overfitting in neural networks based on certain training data. Elimination can be made by removing neural network nodes that may cause or exacerbate overfitting. Gaussian elimination processing may use a Gaussian distribution to determine the nodes to be removed. Such processing may produce noise as elimination, but may store the mean and variance of the input data relative to their original values based on a Gaussian distribution to ensure the self-normalization property even after elimination.

[0070] На стадии 612 может выполняться обработка гауссовского шума. Гауссовский шум представляет собой статистический шум, имеющий функцию плотности вероятности (PDF), равную функции нормального, или гауссовского, распределения. Обработка гауссовского шума может включать добавление шума к данным для предотвращения обучения модели небольшим (часто тривиальным) изменениям в данных, тем самым добавляя устойчивость к переобучению модели. Этот процесс может повысить точность прогнозов. На стадии 614 может выполняться двумерная (2D) сверточная обработка. 2D свертка является расширением 1D свертки за счет свертки как горизонтального, так и вертикального направлений в двумерной пространственной области и может обеспечивать сглаживание данных. Такая обработка может сканировать все частичные входные данные с помощью нескольких движущихся фильтров. Каждый фильтр можно рассматривать как нейронный слой с совместно используемыми параметрами, который подсчитывает появление определенной характеристики (совпадающей со значениями параметров фильтра) во всех местах на карте характеристик. На стадии 616 может выполняться вторая обработка с пакетной нормализацией. На стадии 618 может выполняться вторая обработка активации, на стадии 620 может выполняться вторая обработка с гауссовским исключением, а на стадии 622может выполняться 2D обработка с повышающей дискретизацией. Обработка с повышающей дискретизацией может преобразовать входные данные из исходной формы в желаемую (в основном более крупную) форму. Например, для этого может использоваться передискретизация или интерполяция. Например, входные данные можно повторно масштабировать до желаемого размера, и значение в каждой точке может быть вычислено с использованием интерполяции, такой как билинейная интерполяция. На стадии 624 может выполняться вторая обработка гауссовского шума, а на стадии 626 может выполняться двумерная (2D) сверточная обработка.[0070] At 612 , Gaussian noise processing may be performed. Gaussian noise is statistical noise having a probability density function (PDF) equal to a normal, or Gaussian, distribution function. Gaussian noise processing can involve adding noise to the data to prevent the model from learning small (often trivial) changes in the data, thereby adding resilience to model overfitting. This process can improve the accuracy of forecasts. At block 614 , two-dimensional (2D) convolutional processing may be performed. 2D convolution is an extension of 1D convolution by convolving both the horizontal and vertical directions in a two-dimensional spatial domain and can provide data smoothing. Such processing can scan all partial inputs with multiple moving filters. Each filter can be thought of as a neural layer with shared parameters that counts the occurrence of a particular feature (matching the values of the filter's parameters) at all locations in the feature map. At 616 , a second batch normalization processing may be performed. At block 618 , a second activation processing may be performed, at block 620 , a second Gaussian elimination processing may be performed, and at block 622 , 2D upsampling processing may be performed. Upsampling processing can convert the input data from its original form to the desired (mostly larger) form. For example, resampling or interpolation can be used for this. For example, the input data can be rescaled to the desired size, and the value at each point can be calculated using an interpolation such as bilinear interpolation. At block 624 , a second Gaussian noise processing may be performed, and at block 626 , two-dimensional (2D) convolution processing may be performed.

[0071] На фиг. 7, на стадии 628 может выполняться третья обработка с пакетной нормализацией, на стадии 630 может выполняться третья обработка активации, на стадии 632 может выполняться третья обработка с гауссовским исключением, и на стадии 634 может выполняться третья обработка гауссовского шума. На стадии 636 может выполняться вторая двумерная (2D) сверточная обработка, а на стадии 638 может выполняться четвертая обработка с пакетной нормализацией. Обработка активации может выполняться после стадии 638 и до стадии 640. На стадии 640 может выполняться четвертая обработка с гауссовским исключением. [0071] In FIG. 7 , a third batch normalization processing may be performed at 628 , a third activation processing may be performed at 630 , a third Gaussian elimination processing may be performed at 632 , and a third Gaussian noise processing may be performed at 634 . At block 636 , a second two-dimensional (2D) convolutional processing may be performed, and at block 638 , a fourth batch normalization processing may be performed. Activation processing may be performed after step 638 and before step 640 . At 640 , a fourth Gaussian elimination processing may be performed.

[0072] На стадии 642 может выполняться четвертая обработка гауссовского шума, на стадии 644 - третья двумерная (2D) сверточная обработка, а на стадии 646 может выполняться пятая обработка с пакетной нормализацией. На стадии 648 может выполняться пятая обработка с гауссовским исключением, на стадии 650 может выполняться пятая обработка гауссовского шума, а на стадии 652 может выполняться четвертая обработка активации. Такая обработка активации может использовать сигмоидную функцию активации, которая преобразует входные данные из [- бесконечность, бесконечность] в выходные данные [0,1]. Типичные системы распознавания данных могут использовать функцию активации на последнем слое. Однако из-за категориального характера настоящих методик сигмоидная функция может обеспечивать улучшенное прогнозирование связывания MHC. Сигмоидная функция более мощная, чем ReLU, и может обеспечить подходящий вывод вероятности. Например, в настоящей задаче классификации может быть желательным выведение как вероятность. Однако, поскольку сигмоидная функция может быть намного медленнее, чем ReLU или tanh, по соображениям эффективности может быть нежелательно использовать сигмоидную функцию для предыдущих слоев активации. Однако, поскольку последние плотные слои более непосредственно связаны с окончательным выведением, применение сигмоидной функции на этом слое активации может значительно улучшить сходимость по сравнению с ReLU.[0072] At block 642 , a fourth Gaussian noise processing may be performed, at block 644 , a third two-dimensional (2D) convolutional processing, and at block 646 , a fifth batch normalization processing may be performed. At 648 , a fifth Gaussian elimination processing may be performed, at 650 , a fifth Gaussian noise processing may be performed, and at 652 , a fourth activation processing may be performed. Such activation processing can use a sigmoid activation function that converts the input from [- infinity, infinity] to the output [0,1]. Typical data recognition systems may use an activation function on the last layer. However, due to the categorical nature of the present techniques, the sigmoid function may provide improved prediction of MHC binding. The sigmoid function is more powerful than ReLU and can provide a suitable probability output. For example, in a present classification problem, inference as a probability may be desirable. However, since the sigmoid function can be much slower than ReLU or tanh, for efficiency reasons it may not be desirable to use the sigmoid function for previous activation layers. However, since the last dense layers are more directly related to the final inference, applying the sigmoid function on this activation layer can significantly improve convergence compared to ReLU.

[0073] На стадии 654 может выполняться вторая обработка с изменением формы ввода для изменения выходных данных относительно размерности данных (которые могут быть поданы на дискриминатор позже).[0073] At block 654 , second input reshaping processing may be performed to change the output relative to the dimension of the data (which may be fed to the discriminator later).

[0074] Пример варианта осуществления потока обработки дискриминатора 226 показан на фиг. 8 - фиг. 9. Поток обработки является только примером и не предназначен для ограничения. В этом примере каждый блок обработки может выполнять указанный тип обработки и может выполняться в показанном порядке. Следует отметить, что это всего лишь пример. В вариантах осуществления типы выполняемой обработки, а также порядок, в котором выполняется обработка, могут быть изменены. [0074] An exemplary embodiment of the discriminator 226 processing flow is shown in FIG. 8 - fig. 9 . The processing flow is only an example and is not intended to be limiting. In this example, each processing unit may perform the specified type of processing and may be performed in the order shown. It should be noted that this is just an example. In embodiments, the types of processing performed, as well as the order in which processing is performed, may be changed.

[0075] Вернемся к фиг. 8, обработка, включенная в дискриминатор 226, может начинаться с одномерной (1D) сверточной обработки 802, которая может принимать входной сигнал, применять 1D сверточный фильтр к входным данным и создавать выходные данные. На стадии 804 может выполняться обработка с пакетной нормализацией, а на стадии 806 может выполняться обработка активации. Например, для выполнения обработки активации может использоваться обработка посредством выпрямленных линейных блоков (RELU) с утечкой. RELU представляет собой один из типов функции активации для узла или нейрона в нейронной сети. RELU с утечкой может допускать небольшой ненулевой градиент, когда узел не активен (вход меньше 0). У ReLU есть проблема под названием «умирание», при которой он продолжает выводить 0, когда вход функции активации имеет большое отрицательное смещение. Когда это происходит, модель прекращает обучение. ReLU с утечкой решает эту проблему, предоставляя ненулевой градиент, даже когда он неактивен. Например, f (x) = alpha * x для x <0, f (x) = x для x> = 0. На стадии 808 может выполняться обработка с изменением формы ввода, а на стадии 810 может выполняться 2D обработка с повышающей дискретизацией. [0075] Returning to FIG. 8 , the processing included in the discriminator 226 may begin with a one-dimensional (1D) convolutional processing 802 that may take an input, apply a 1D convolution filter to the input, and produce an output. At 804 , batch normalization processing may be performed, and at 806 , activation processing may be performed. For example, Leaky Rectified Linear Unit (RELU) processing may be used to perform activation processing. RELU is one type of activation function for a node or neuron in a neural network. A leaky RELU can tolerate a small non-zero gradient when the node is not active (input less than 0). ReLU has a problem called "dying" where it keeps outputting 0 when the activation function's input has a large negative bias. When this happens, the model stops training. Leaky ReLU solves this problem by providing a non-zero gradient even when it is inactive. For example, f(x)=alpha*x for x<0, f(x)=x for x>=0. At block 808 , input reshaping processing may be performed, and at block 810 , 2D upsampling processing may be performed.

[0076] Необязательно на стадии 812 может выполняться обработка гауссовского шума, на стадии 814 может выполняться двумерная (2D) сверточная обработка, на стадии 816 может выполняться вторая обработка с пакетной нормализацией, на стадии 818 может выполняться вторая обработка активации, на стадии 820может выполняться вторая 2D обработка с повышающей дискретизацией, на стадии 822 может выполняться вторая 2D сверточная обработка, на стадии 824 может выполняться третья обработка с пакетной нормализацией и на стадии 826 может выполняться третья обработка активации.[0076] Optionally, at block 812 , Gaussian noise processing may be performed, at block 814 , two-dimensional (2D) convolution processing may be performed, at block 816 , a second batch normalization processing may be performed, at block 818 , a second activation processing may be performed, at block 820 , second 2D upsampling processing, a second 2D convolutional processing may be performed at 822 , a third batch normalization processing may be performed at 824 , and a third activation processing may be performed at 826 .

[0077] Продолжим рассматривать фиг. 9; на стадии 828 может выполняться третья 2D сверточная обработка, на стадии 830 может выполняться четвертая обработка с пакетной нормализацией, на стадии 832 может выполняться четвертая обработка активации, на стадии 834 может выполняться четвертая 2D сверточная обработка, на стадии 836 может выполняться пятая обработка с пакетной нормализацией, на стадии 838 может выполняться пятая обработка активации и на стадии 840 может выполняться обработка с выравниванием данных. Например, обработка с выравниванием данных может включать объединение данных из разных таблиц или наборов данных для формирования единой таблицы или набора данных или их уменьшенного количества. На 842 может выполняться обработка плотности. На стадии 844 может выполняться шестая обработка активации, на стадии 846 может выполняться вторая обработка плотности, на стадии 848 может выполняться шестая обработка с пакетной нормализацией, и на стадии 850 может выполняться седьмая обработка активации.[0077] Continuing with FIG. 9 ; at step 828 a third 2D convolution processing may be performed, at step 830 a fourth batch normalization processing may be performed, at step 832 a fourth activation processing may be performed, at step 834 a fourth 2D convolution processing may be performed, at step 836 a fifth batch normalization processing may be performed , at step 838 , a fifth activation processing may be performed, and at step 840 , data alignment processing may be performed. For example, data flattening processing may include combining data from different tables or datasets to form a single table or dataset, or a reduced number thereof. At 842 , density processing may be performed. At block 844 , a sixth activation processing may be performed, at block 846 , a second density processing may be performed, at block 848 , a sixth batch normalization processing may be performed, and at block 850 , a seventh activation processing may be performed.

[0078] Сигмоидная функция может использоваться вместо ReLU с утечкой в качестве функций активации для последних 2 плотных слоев. Сигмоид более мощный, чем ReLU с утечкой, и может обеспечивать выход с разумной вероятностью (например, в задаче классификации желателен выход как вероятность). Однако сигмоидная функция медленнее, чем ReLU с утечкой, использование сигмоида может быть нежелательным для всех слоев. Однако, поскольку последние два плотных слоя более непосредственно связаны с конечным выходом, сигмоид значительно улучшает сходимость по сравнению с ReLU с утечкой. В вариантах осуществления два плотных слоя (или полносвязные слои нейронной сети) 842 и 846 могут использоваться для получения достаточной сложности для преобразования их входных данных. В частности, один плотный слой может быть недостаточно сложным для преобразования результатов свертки в выходное пространство дискриминатора, хотя этого может быть достаточно для использования в генераторе 228.[0078] The sigmoid function can be used instead of the leaky ReLU as the activation functions for the last 2 dense layers. The sigmoid is more powerful than a leaky ReLU and can provide an output with a reasonable probability (for example, in a classification problem, an output as a probability is desirable). However, the sigmoid function is slower than the leaky ReLU, the use of the sigmoid may not be desirable for all layers. However, since the last two dense layers are more directly related to the final output, sigmoid improves convergence significantly compared to leaky ReLU. In embodiments, two dense layers (or fully connected neural network layers) 842 and 846 can be used to obtain enough complexity to transform their inputs. In particular, a single dense layer may not be complex enough to transform the results of the convolution into the output space of the discriminator, although this may be sufficient for use in a generator 228 .

[0079] В варианте осуществления раскрыты способы использования нейронной сети (например, CNN) для классификации входных данных на основе предыдущего процесса обучения. Нейронная сеть может генерировать оценку прогноза и, таким образом, может классифицировать входные биологические данные как успешные или неуспешные на основе нейронной сети, предварительно обученной на наборе успешных и неуспешных биологических данных, включая оценки прогноза. Оценки прогноза могут представлять собой оценки аффинности связывания. Нейронная сеть может использоваться для генерирования прогнозируемого показателя аффинности связывания. Показатель аффинности связывания может численно представлять вероятность того, что одна биомолекула (например, белок, ДНК, лекарственное средство и т. д.) свяжется с другой биомолекулой (например, с белком, ДНК, лекарственным средством и т. д.). Прогнозируемая оценка аффинности связывания может численно представлять вероятность того, что пептид (например, MHC) будет связываться с другим пептидом. Однако до сих пор методики машинного обучения не могли применяться ввиду, по меньшей мере, неспособности производить надежные прогнозы, когда нейронная сеть обучается на небольших объемах данных.[0079] In an embodiment, methods are disclosed for using a neural network (eg, CNN) to classify input data based on a previous learning process. The neural network may generate a prediction score and thus may classify the input biological data as pass or fail based on the neural network pre-trained on the set of pass and fail biological data, including the prediction scores. The prediction scores may be binding affinity scores. A neural network can be used to generate a predictive binding affinity score. The binding affinity index can numerically represent the probability that one biomolecule (eg, protein, DNA, drug, etc.) will bind to another biomolecule (eg, protein, DNA, drug, etc.). The predicted binding affinity score can numerically represent the likelihood that a peptide (eg, MHC) will bind to another peptide. However, until now, machine learning techniques could not be applied due to at least the inability to produce reliable predictions when a neural network is trained on small amounts of data.

[0080] Описанные способы и системы решают эту проблему за счет применения комбинации признаков для более надежного прогнозирования. Первый признак - это применение расширенного набора биологических данных для обучения в целях обучения нейронной сети. Этот расширенный набор для обучения разработан путем обучения GAN созданию смоделированных биологических данных. Затем нейронные сети подвергают обучению с помощью этого расширенного набора для обучения (например, с применением стохастического обучения с обратным распространением, которое представляет собой тип алгоритма машинного обучения, который использует градиент математической функции потерь для корректировки весов сети). К сожалению, введение расширенного набора для обучения может увеличить количество ложноположительных результатов при классификации биологических данных. Соответственно, вторым признаком описанных способов и систем является минимизация этих ложноположительных результатов путем выполнения итеративного алгоритма обучения по мере необходимости, в котором GAN дополнительно задействуется для генерирования обновленного смоделированного набора для обучения, содержащего смоделированные данные более высокого качества, и нейронная сеть проходит переобучение посредством обновленного набора для обучения. Эта комбинация функций обеспечивает надежную модель прогнозирования, которая может спрогнозировать успех (например, оценки аффиности связывания) определенных биологических данных, ограничивая количество ложноположительных результатов.[0080] The described methods and systems solve this problem by applying a combination of features for more reliable prediction. The first feature is the use of an extended set of biological training data to train a neural network. This advanced training set is developed by teaching GANs to generate simulated biological data. The neural networks are then trained with this augmented training set (eg, using stochastic backpropagation learning, which is a type of machine learning algorithm that uses the gradient of a mathematical loss function to adjust the network weights). Unfortunately, the introduction of an augmented training set can increase the number of false positives in the classification of biological data. Accordingly, the second feature of the described methods and systems is to minimize these false positives by executing an iterative learning algorithm as needed, in which the GAN is further employed to generate an updated training simulation set containing higher quality simulation data, and the neural network is retrained by the updated training set. for learning. This combination of features provides a robust predictive model that can predict the success (eg, binding affinity scores) of certain biological data, limiting false positives.

[0081] Набор данных может содержать неклассифицированные биологические данные, такие как неклассифицированные данные взаимодействия белков. Неклассифицированные биологические данные могут включать данные, касающиеся белка, для которого не доступна оценка аффинности связывания в отношении другого белка. Биологические данные могут включать множество кандидатных взаимодействий белок-белок, например кандидатные данные взаимодействия белок-MHC-I. CNN может генерировать оценку прогноза, указывающую аффинность связывания и/или классифицировать каждое из кандидатных взаимодействий полипептид-MHC-I как положительное или отрицательное. [0081] The dataset may contain unclassified biological data, such as unclassified protein interaction data. Unclassified biological data may include data relating to a protein for which an estimate of binding affinity for another protein is not available. The biological data may include a plurality of candidate protein-protein interactions, such as candidate protein-MHC-I interaction data. The CNN may generate a prediction score indicating binding affinity and/or classify each of the candidate polypeptide-MHC-I interactions as positive or negative.

[0082] В варианте осуществления, показанном на фиг. 10, реализуемый на компьютере способ 1000 обучения нейронной сети для прогнозирования аффинности связывания может включать сбор набора положительных биологических данных и отрицательных биологических данных из базы данных на стадии 1010. Биологические данные могут включать данные взаимодействия белок-белок. Данные взаимодействия белок-белок могут включать одно или более из следующего: последовательность первого белка, последовательность второго белка, идентификатор первого белка, идентификатор второго белка и/или оценку аффинности связывания, и т. п. В одном варианте осуществления оценка аффинности связывания может быть равна 1, указывая на успешное связывание (например, положительные биологические данные), или -1, указывая на неуспешное связывание (например, отрицательные биологические данные).[0082] In the embodiment shown in FIG. 10 , a computer-implemented method 1000 for training a neural network to predict binding affinity may include collecting a set of positive biological data and negative biological data from a database at 1010 . The biological data may include protein-protein interaction data. The protein-protein interaction data may include one or more of the following: a first protein sequence, a second protein sequence, a first protein identifier, a second protein identifier and/or a binding affinity score, and the like. In one embodiment, the binding affinity score may be equal to 1, indicating successful binding (eg, positive biological data), or -1, indicating unsuccessful binding (eg, negative biological data).

[0083] Реализуемый на компьютере способ 1000 может предусматривать применение генеративно-состязательной сети (GAN) к набору положительных биологических данных для создания набора смоделированных положительных биологических данных на стадии 1020. Применение GAN к набору положительных биологических данных для создания набора смоделированных положительных биологических данных может включать генерирование посредством генератора GAN все более точных положительных смоделированных биологических данных до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные биологические данные как положительные.[0083] A computer-implemented method 1000 may include applying a generative adversarial network (GAN) to a set of positive biological data to create a set of simulated positive biological data at 1020 . Applying a GAN to a set of positive biological data to generate a set of simulated positive biological data may include generating increasingly accurate positive simulated biological data by the GAN generator until the GAN discriminator classifies the positive simulated biological data as positive.

[0084] Реализуемый на компьютере способ 1000 может предусматривать создание первого набора для обучения, содержащего собранный набор положительных биологических данных, смоделированный набор положительных биологических данных и набор отрицательных биологических данных, на стадии 1030.[0084] The computer-implemented method 1000 may include generating a first training set containing a collected positive biological data set, a simulated positive biological data set, and a negative biological data set at 1030 .

[0085] Реализуемый на компьютере способ 1000 может предусматривать обучение нейронной сети на первой стадии с применением первого набора для обучения на стадии 1040. Обучение нейронной сети на первой стадии с применением первого набора для обучения может включать представление положительных смоделированных биологических данных, положительных биологических данных и отрицательных биологических данных в сверточную нейронную сеть (CNN) до тех пор, пока CNN не будет способна классифицировать биологические данные как положительные или отрицательные.[0085] A computer-implemented method 1000 may include training a neural network in a first stage using a first training set in stage 1040 . Training a neural network in the first stage using the first training set may involve submitting positive simulated biological data, positive biological data, and negative biological data to a convolutional neural network (CNN) until the CNN is able to classify the biological data as positive or negative. .

[0086] Реализуемый на компьютере способ 1000 может предусматривать создание второго набора для обучения для второй стадии обучения путем повторного применения GAN для создания дополнительных смоделированных положительных биологических данных на стадии 1050. Создание второго набора для обучения может быть основано на представлении положительных биологических данных и отрицательных биологических данных в CNN для генерирования оценок прогноза и определения того, что оценки прогноза неточны. Оценки прогноза могут представлять собой оценки аффинности связывания. Неточные оценки прогноза указывают на то, что CNN не полностью обучена, что может быть прослежено до обнаружения того, что GAN не полностью обучена. Соответственно, может выполняться одна или более итераций генератора GAN, генерирующего все более точные положительные смоделированные биологические данные до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные биологические данные как положительные, для генерирования дополнительных смоделированных положительных биологических данных. Второй набор для обучения может содержать положительные биологические данные, смоделированные положительные биологические данные и отрицательные биологические данные.[0086] The computer-implemented method 1000 may include generating a second training set for the second stage of training by reapplying the GAN to generate additional simulated positive biological data in stage 1050 . The creation of a second training set may be based on presenting positive biological data and negative biological data to the CNN to generate prediction scores and determine that the prediction scores are inaccurate. The prediction scores may be binding affinity scores. Inaccurate prediction scores indicate that the CNN is not fully trained, which can be traced back to finding that the GAN is not fully trained. Accordingly, one or more iterations of the GAN generator may be performed generating progressively more accurate positive simulated biological data until the GAN discriminator classifies the positive simulated biological data as positive to generate additional simulated positive biological data. The second training set may comprise positive biological data, simulated positive biological data, and negative biological data.

[0087] Реализуемый на компьютере способ 1000 может предусматривать обучение нейронной сети на второй стадии с применением второго набора для обучения на стадии 1060. Обучение нейронной сети на второй стадии с применением второго набора для обучения может предусматривать представление положительных биологических данных, смоделированных положительных биологических данных и отрицательных биологических данных в CNN до тех пор, пока CNN не будет способна классифицировать биологические данные как положительные или отрицательные.[0087] A computer-implemented method 1000 may include training a neural network in a second stage using a second training set in stage 1060 . Training the neural network in the second stage using the second training set may involve submitting positive biological data, simulated positive biological data, and negative biological data to the CNN until the CNN is able to classify the biological data as positive or negative.

[0088] После того, как CNN будет полностью обучена, в CNN могут быть представлены новые биологические данные. Новые биологические данные могут включать данные в отношении взаимодействия белок-белок. Данные взаимодействия белок-белок могут включать одно или более из последовательности первого белка, последовательности второго белка, идентификатора первого белка и/или идентификатора второго белка и т. п. CNN может анализировать новые биологические данные и генерировать оценку прогноза (например, прогнозируемую аффинность связывания), указывающую на прогнозируемое успешное или неуспешное связывание.[0088] After the CNN is fully trained, new biological data can be presented to the CNN. New biological data may include data on protein-protein interactions. The protein-protein interaction data may include one or more of a first protein sequence, a second protein sequence, a first protein identifier and/or a second protein identifier, and the like. The CNN may analyze the new biological data and generate a prediction score (e.g., predicted binding affinity) , indicating the predicted successful or unsuccessful binding.

[0089] В иллюстративном аспекте способы и системы могут быть реализованы на компьютере 1101, как проиллюстрировано на фиг. 11 и описано ниже. Сходным образом, в раскрытых способах и системах может использоваться один или более компьютеров для выполнения одной или более функций в одном или более местоположениях. На фиг. 11 показана блок-диаграмма, демонстрирующая иллюстративную операционную среду, предназначенную для выполнения раскрытых способов. Данная иллюстративная операционная среда является лишь примером операционной среды и не предполагает каких-либо ограничений в отношении объема применения или функциональности архитектуры операционной среды. Также не следует истолковывать операционную среду как каким-либо образом зависящую от или требующую наличия любого из компонентов или их комбинации, показанных в иллюстративной операционной среде.[0089] In an illustrative aspect, the methods and systems may be implemented on computer 1101 as illustrated in FIG. 11 and described below. Likewise, the disclosed methods and systems may use one or more computers to perform one or more functions at one or more locations. In FIG. 11 is a block diagram illustrating an exemplary operating environment for performing the disclosed methods. This exemplary operating environment is only an example of an operating environment and is not intended to suggest any limitation as to the scope of application or functionality of the operating environment architecture. Also, the operating environment should not be construed as in any way dependent on or requiring the presence of any of the components, or combinations thereof, shown in the illustrative operating environment.

[0090] Способы и системы по настоящему изобретению могут функционировать с многочисленными другими средами или конфигурациями вычислительных систем общего назначения или специализированного назначения. Примеры хорошо известных вычислительных систем, сред и/или конфигураций, которые могут быть подходящими для использования с системами и способами, включают без ограничения персональные компьютеры, серверные компьютеры, портативные компьютеры и многопроцессорные системы. Дополнительные примеры включают компьютерные приставки, программируемую бытовую электронную технику, сетевые компьютеры, миникомпьютеры, суперкомпьютеры, распределенные вычислительные среды, которые содержат любые из вышеперечисленных систем или устройств и т. п. [0090] The methods and systems of the present invention may operate with numerous other general purpose or special purpose computing system environments or configurations. Examples of well-known computing systems, environments, and/or configurations that may be suitable for use with the systems and methods include, without limitation, personal computers, server computers, laptop computers, and multiprocessor systems. Additional examples include set-top boxes, programmable consumer electronics, networked computers, minicomputers, supercomputers, distributed computing environments that include any of the above systems or devices, and the like.

[0091] Вычисление, предусматриваемое раскрытыми способами и системами, можно выполнять с помощью компонентов программного обеспечения. Раскрытые системы и способы могут быть описаны в общем контексте выполняемых компьютером команд, как, например, блоки программ, выполняемые одним или более компьютерами или другими устройствами. Как правило, блоки программ включают программный код, алгоритмы, программы, объекты, компоненты, структуры данных и т. д., которые выполняют конкретные задачи или обеспечивают реализацию конкретных типов абстрактных данных. Раскрытые способы также можно осуществлять на практике с помощью сетевых и распределенных вычислительных сред, в которых задачи выполняются устройствами дистанционной обработки данных, которые связаны посредством коммуникационной сети. В распределенной вычислительной среде блоки программ могут быть расположены как в локальных, так и в удаленных компьютерных носителях информации, в том числе в запоминающих устройствах.[0091] The computation provided by the disclosed methods and systems can be performed using software components. The disclosed systems and methods may be described in the general context of computer-executable instructions, such as blocks of programs executed by one or more computers or other devices. Generally, blocks of programs include program code, algorithms, programs, objects, components, data structures, etc., that perform specific tasks or provide implementations of specific abstract data types. The disclosed methods may also be practiced using networked and distributed computing environments in which tasks are performed by remote data processing devices that are linked through a communications network. In a distributed computing environment, program blocks can be located both in local and remote computer storage media, including storage devices.

[0092] Кроме того, специалисту в данной области техники будет понятно, что системы и способы, раскрытые в данном документе, могут быть реализованы посредством вычислительного устройства общего назначения в виде компьютера 1101. Компоненты компьютера 1101 могут предусматривать без ограничения один или более процессоров 1103, системное запоминающее устройство 1112 и системную шину 1113, которая соединяет разные компоненты системы, в том числе один или более процессоров 1103 с системным запоминающим устройством 1112. Система может использовать параллельную вычислительную обработку.[0092] In addition, one of skill in the art will appreciate that the systems and methods disclosed herein may be implemented by a general purpose computing device in the form of computer 1101 '. Computer 1101 components may include, without limitation, one or more processors 1103 , system storage 1112 , and a system bus 1113 that connects various system components, including one or more processors 1103 to system storage 1112 . The system may use parallel computing.

[0093] Системная шина 1113 представляет собой один или более из нескольких возможных типов шинных структур, в том числе шину запоминающего устройство или контроллер запоминающего устройства, периферийную шину, ускоренный графический порт или локальную шину с использованием любой из множества шинных архитектур. В качестве примера такие архитектуры могут включать в себя шину со стандартной промышленной архитектурой (ISA), шину с микроканальной архитектурой (MCA), шину с улучшенной стандартной промышленной архитектурой (EISA), локальную шину ассоциации стандартов видеоэлектроники (VESA), шину расширения стандарта AGP для подключения видеоадаптеров (AGP) и локальную шину соединения периферийных устройств (PCI), последовательную шину/последовательный интерфейс PCI Express, карту памяти персонального компьютера международной ассоциации (PCMCIA), универсальную последовательную шину (USB) и т. п. Шина 1113 и все шины, указанные в данном описании, могут быть также реализованы посредством проводного или беспроводного сетевого соединения, при этом каждая из подсистем, в том числе один или более процессоров 1103, запоминающее устройство 1104 большой емкости, операционная система 1105, программное обеспечение 1106 для классификации (например, GAN, CNN), классификационные данные 1107 (например, «реальные» или «смоделированные» данные, в том числе положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и/или отрицательные реальные данные взаимодействия полипептида и MHC-I), сетевой адаптер 1108, системное запоминающее устройство 1112, интерфейс 1110 ввода/вывода, графический адаптер 1109, устройство 1111 отображения и интерфейс 1102 «пользователь-машина», может находиться в пределах одного или более удаленных вычислительных устройств 1114a, b,c, находящихся в физически отделенных местоположениях, соединенных посредством шин данного типа, в результате чего реализуется полностью распределенная система.[0093] The system bus 1113 is one or more of several possible types of bus structures, including a storage bus or storage controller, a peripheral bus, an accelerated graphics port, or a local bus using any of a variety of bus architectures. By way of example, such architectures may include an industry standard architecture (ISA) bus, a microchannel architecture (MCA) bus, an enhanced industry standard architecture (EISA) bus, a Video Electronics Standards Association (VESA) local bus, an AGP extension bus for Video Adapter Connections (AGP) and Local Peripheral Interconnect (PCI), Serial/PCI Express Serial, Personal Computer International Association (PCMCIA) Memory Card, Universal Serial Bus (USB), etc. 1113 bus and all buses described herein may also be implemented via a wired or wireless network connection, wherein each of the subsystems, including one or more processors 1103 , mass storage 1104 , operating system 1105 , classification software 1106 (e.g., GAN , CNN), classification data 1107 (e.g. "real e" or "simulated" data, including positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and/or negative real polypeptide-MHC-I interaction data), network adapter 1108 , system storage device 1112 , I/O interface 1110 , graphics adapter 1109 , display device 1111 , and user-machine interface 1102 may reside within one or more remote computing devices 1114a,b,c located in physically separate locations connected via buses of this type, resulting in a fully distributed system.

[0094] Компьютер 1101, как правило, содержит ряд различных машиночитаемых носителей. Иллюстративные носители данных могут представлять собой любые доступные носители, доступ к которым осуществляется с помощью компьютера 1101, и они предусматривают, например, без ограничения как энергозависимые, так и энергонезависимые носители, съемные и несъемные носители. Системное запоминающее устройство 1112 содержит машиночитаемые носители в виде энергозависимого запоминающего устройства, такого как запоминающее устройство с произвольным доступом (RAM), и/или энергонезависимого запоминающего устройства, такого как запоминающее устройство с постоянным доступом (ROM). Системная память 1112, как правило, содержит данные, как, например, классификационные данные 1107, и/или блоки программ, как, например, операционная система 1105 и программное обеспечение для классификации 1106, которые непосредственно доступны для одного или более процессоров 1103 и/или в данный момент подвергаются обработке с их помощью.[0094] Computer 1101 typically includes a number of different computer-readable media. Exemplary storage media can be any available media accessed by computer 1101 and includes, for example, without limitation, both volatile and nonvolatile media, removable and non-removable media. System storage 1112 includes computer-readable media in the form of volatile storage, such as random access memory (RAM), and/or non-volatile storage, such as read only memory (ROM). System memory 1112 typically contains data, such as classification data 1107 , and/or blocks of programs, such as operating system 1105 and classification software 1106 , that are directly accessible to one or more processors 1103 and/or are currently being processed with their help.

[0095] В другом аспекте компьютер 1101 также может содержать другие съемные/несъемные энергозависимые/энергонезависимые компьютерные носители информации. В качестве примера на фиг. 11 показано запоминающее устройство 1104 большой емкости, которое может обеспечивать энергонезависимое хранение программного кода, машиночитаемых команд, структур данных, блоков программ и других данных для компьютера 1101. Например, без ограничения запоминающее устройство 1104 большой емкости может представлять собой жесткий диск, съемный магнитный диск, съемный оптический диск, магнитные кассеты или другие магнитные запоминающие устройства, карты флеш-памяти, CD-ROM, универсальные цифровые диски (DVD) или другое оптическое запоминающее устройство, запоминающие устройства с произвольным доступом (RAM), запоминающие устройства с постоянным доступом (ROM), электрически стираемое программируемое постоянное запоминающее устройство (EEPROM) и т. п.[0095] In another aspect, computer 1101 may also include other removable/non-removable volatile/non-volatile computer storage media. As an example, in FIG. 11 shows a mass storage device 1104 that can provide non-volatile storage of program code, computer readable instructions, data structures, program blocks, and other data for computer 1101 . For example, without limitation, the mass storage device 1104 may be a hard drive, removable magnetic disk, removable optical disk, magnetic cassettes or other magnetic storage devices, flash memory cards, CD-ROMs, digital versatile disks (DVDs), or other optical storage media. device, random access memory (RAM), read only memory (ROM), electrically erasable programmable read only memory (EEPROM), etc.

[0096] Необязательно любое число программных модулей может храниться на запоминающем устройстве 1104 большой емкости, в том числе в качестве примера операционная система 1105 и программное обеспечение 1106 для классификации. Как операционная система 1105, так и программное обеспечение 1106 для классификации (или какая-либо их комбинация) могут содержать элементы программ и программное обеспечение 1106 для классификации. Классификационные данные 1107 также могут храниться на запоминающем устройстве 1104 большой емкости. Классификационные данные 1107 могут храниться в любой одной или более баз данных, известных в данной области техники. Примеры таких баз данных включают DB2®, Microsoft® Access, Microsoft® SQL Server, Oracle®, mySQL, PostgreSQL и т. п. Базы данных могут быть централизованными или распределенными между несколькими системами.[0096] Optionally, any number of program modules may be stored on mass storage device 1104 , including by way of example an operating system 1105 and classification software 1106 . Both the operating system 1105 and the classification software 1106 (or any combination thereof) may contain program elements and the classification software 1106 . Classification data 1107 may also be stored on mass storage device 1104 . Classification data 1107 may be stored in any one or more databases known in the art. Examples of such databases include DB2®, Microsoft® Access, Microsoft® SQL Server, Oracle®, mySQL, PostgreSQL, etc. Databases can be centralized or distributed across multiple systems.

[0097] В другом аспекте пользователь может вводить команды и информацию в компьютер 1101 с помощью устройства ввода данных (не показано). Примеры таких устройств ввода данных включают без ограничения клавиатуру, указательное устройство (например, «мышь»), микрофон, джойстик, сканер, устройства тактильного ввода, как, например, перчатки и другие покрывающие тело предметы и т. п. Эти и другие устройства ввода данных могут быть соединены с одним или более процессорами 1103 посредством интерфейса 1102 «пользователь-машина», который соединен с системной шиной 1113, но могут быть соединены посредством другого интерфейса и шинных структур, таких как параллельный порт, игровой порт, порт IEEE 1394 (также известный как порт Firewire), последовательный порт или универсальная последовательная шина (USB).[0097] In another aspect, a user may enter commands and information into the computer 1101 using an input device (not shown). Examples of such input devices include, without limitation, a keyboard, a pointing device ( e.g. "mouse"), a microphone, a joystick, a scanner, tactile input devices such as gloves and other body coverings, and the like. These and other input devices data may be connected to one or more processors 1103 via a user-machine interface 1102 that is connected to the system bus 1113 , but may be connected via another interface and bus structures such as a parallel port, a game port, an IEEE 1394 port (also known as a Firewire port), serial port, or Universal Serial Bus (USB).

[0098] В еще одном аспекте устройство 1111 отображения также может быть соединено с системной шиной 1113 посредством интерфейса, такого как графический адаптер 1109. Предполагается, что компьютер 1101 может иметь более одного графического адаптера 1109, и компьютер 1101 может иметь более одного устройства 1111 отображения. Например, устройство отображения 1111 может представлять собой монитор, LCD (жидкокристаллический дисплей) или проектор. В дополнение к устройству 1111 отображения другие периферийные устройства вывода могут предусматривать такие компоненты, как громкоговорители (не показаны) и принтер (не показан), которые могут быть соединены с компьютером 1101 посредством интерфейса 1110 ввода/вывода. Любая стадия и/или результат способов могут быть выведены в любой форме на устройство вывода. Такой выводимый результат может быть представлен в любой форме визуального представления, в том числе без ограничения в текстовой, графической, анимационной, звуковой, тактильной формах и т. п. Устройство 1111 отображения и компьютер 1101 могут быть частью одного устройства или отдельными устройствами.[0098] In yet another aspect, the display device 1111 can also be connected to the system bus 1113 via an interface, such as a graphics adapter 1109 '. It is contemplated that computer 1101 may have more than one graphics adapter 1109 , and computer 1101 may have more than one display device 1111 . For example, the display device 1111 may be a monitor, an LCD (liquid crystal display), or a projector. In addition to display device 1111 , other peripheral output devices may include components such as speakers (not shown) and a printer (not shown) that may be connected to computer 1101 via I/O interface 1110 . Any step and/or result of the methods may be output in any form to an output device. Such output may be in any form of visual presentation, including, without limitation, textual, graphical, animated, audio, tactile, and the like. Display device 1111 and computer 1101 may be part of the same device or separate devices.

[0099] Компьютер 1101 может функционировать в сетевой среде с использованием логических соединений с одним или более удаленными вычислительными устройствами 1114a, b,c. В качестве примера удаленное вычислительное устройство может представлять собой персональный компьютер, портативный компьютер, смартфон, сервер, маршрутизатор, сетевой компьютер, одноранговое устройство или другой общий узел сети и т. д. Логические соединения между компьютером 1101 и удаленным вычислительным устройством 1114a, b,c могут быть установлены посредством сети 1115, такой как локальная вычислительная сеть (LAN) и/или общая глобальная вычислительная сеть (WAN). Такие сетевые соединения могут быть осуществлены посредством сетевого адаптера 1108. Сетевой адаптер 1108 может быть реализован как в проводной, так и беспроводной средах. Такие сетевые среды являются традиционными и общеупотребительными для жилых помещений, офисов, компьютерных сетей масштаба предприятия, внутренних сетей и сети Интернет. [0099] The computer 1101 may operate in a networked environment using logical connections to one or more remote computing devices 1114a, b, c . As an example, the remote computing device may be a personal computer, laptop, smartphone, server, router, network computer, peer device, or other common network node, etc. Logical connections between the computer 1101 and the remote computing device 1114a, b, c may be established via a network 1115 such as a local area network (LAN) and/or a shared wide area network (WAN). Such network connections can be made through the network adapter 1108 . Network adapter 1108 can be implemented in both wired and wireless environments. Such networking environments are traditional and commonplace in homes, offices, enterprise-wide computer networks, intranets, and the Internet.

[00100] В целях иллюстрации прикладные программы и другие выполняемые компоненты программ, как, например, операционная система 1105, проиллюстрированы в данном документе в виде дискретных блоков, хотя понятно, что такие программы и компоненты находятся в различные моменты времени в разных компонентах памяти вычислительного устройства 1101 и их выполнение реализуется одним или более процессорами 1103 компьютера. Вариант реализации программного обеспечения 1106 для классификации может храниться на машиночитаемых носителях или передаваться посредством какого-либо типа машиночитаемых носителей. Любой из раскрытых способов можно осуществлять посредством машиночитаемых команд, реализованных на машиночитаемых носителях. Машиночитаемые носители могут представлять собой любые доступные носители, доступ к которым может быть получен с помощью компьютера. В качестве примера и без ограничения машиночитаемые носители могут предусматривать «компьютерные носители информации» и «средства связи». «Компьютерные носители информации» включают энергозависимые и энергонезависимые съемные и несъемные носители, реализованные посредством любых способов или технологии хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Иллюстративные компьютерные носители информации включают без ограничения RAM, ROM, EEPROM, флеш-память или другую технологию хранения информации, CD-ROM, универсальные цифровые диски (DVD) или другое оптическое запоминающее устройство, магнитные кассеты, магнитную ленту, запоминающее устройство на магнитных дисках или другие магнитные запоминающие устройства или любой другой носитель, который можно использовать для хранения требуемой информации и доступ к которому может быть получен с помощью компьютера.[00100] For purposes of illustration, application programs and other executable program components, such as the operating system 1105 , are illustrated herein as discrete units, although it is understood that such programs and components reside at different times in different memory components of a computing device. 1101 and their execution is implemented by one or more processors 1103 of the computer. An implementation of the classification software 1106 may be stored on computer-readable media or transmitted via some type of computer-readable media. Any of the disclosed methods may be carried out by computer-readable instructions implemented on computer-readable media. Computer-readable media can be any available media that can be accessed by a computer. By way of example and without limitation, computer-readable media may include "computer storage media" and "communications media". "Computer storage media" includes volatile and nonvolatile removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules, or other data. Illustrative computer storage media include, without limitation, RAM, ROM, EEPROM, flash memory or other information storage technology, CD-ROM, digital versatile disks (DVD) or other optical storage device, magnetic cassettes, magnetic tape, magnetic disk storage or other magnetic storage devices or any other media that can be used to store the required information and that can be accessed using a computer.

[00101] В способах и системах могут использоваться методики искусственного интеллекта, такие как машинное обучение и итеративное обучение. Примеры таких методик включают без ограничения экспертные системы, рассуждение на основе аналогичных случаев, Байесовские сети, поведенческий искусственный интеллект, нейронные сети, системы на основе нечеткой логики, эволюционное моделирование (например генетические алгоритмы), роевый интеллект (например, алгоритмы муравьиной колонии) и гибридные интеллектуальные системы (например экспертные правила вывода, полученные посредством нейронной сети, или продукционные правила, полученные в результате статистического обучения).[00101] The methods and systems may use artificial intelligence techniques such as machine learning and iterative learning. Examples of such techniques include, without limitation, expert systems, case-based reasoning, Bayesian networks, behavioral artificial intelligence, neural networks, fuzzy logic systems, evolutionary modeling (e.g., genetic algorithms), swarm intelligence (e.g., ant colony algorithms), and hybrid intelligent systems (for example, expert inference rules obtained through a neural network, or production rules obtained as a result of statistical learning).

[00102] Следующие примеры изложены с тем, чтобы обеспечить специалистов в данной области полным раскрытием и описанием того, как получают и оценивают соединения, композиции, изделия, устройства и/или способы, заявленные в данном документе, и они предназначены для того, чтобы быть лишь иллюстративными и не предназначены для ограничения объема способов и систем. Были приложены усилия для обеспечения точности в отношении чисел (например, количеств, температуры и т. п.), однако необходимо учитывать некоторые ошибки и отклонения. Если не указано иное, то части являются частями по массе, температура представлена в°C или предусмотрена на уровне температуры окружающей среды, и давление равно атмосферному или близко к нему.[00102] The following examples are set forth to provide those skilled in the art with a complete disclosure and description of how the compounds, compositions, articles, devices, and/or methods claimed herein are prepared and evaluated, and are intended to be are illustrative only and are not intended to limit the scope of the methods and systems. Efforts have been made to ensure accuracy in terms of numbers (eg quantities, temperatures, etc.), but some errors and deviations must be taken into account. Unless otherwise indicated, parts are parts by weight, temperatures are in °C or provided at ambient temperature, and pressures are equal to or close to atmospheric.

B. Аллели HLA B. HLA alleles

[00103] Раскрытые системы могут быть обучены на неограниченном количестве аллелей HLA. Данные о связывании пептида с белковыми комплексами MHC-I, кодируемыми аллелями HLA, известны в данной области и доступны из баз данных, в том числе без ограничения, IEDB, AntiJen, MHCBN, SYFPEITHI и т. п.[00103] The disclosed systems can be trained on an unlimited number of HLA alleles. Data on peptide binding to MHC-I protein complexes encoded by HLA alleles are known in the art and are available from databases including, but not limited to, IEDB, AntiJen, MHCBN, SYFPEITHI, and the like.

[00104] В одном варианте осуществления раскрытые системы и способы улучшают прогностичность связывания пептида с белковыми комплексами MHC-I, кодируемыми аллелями HLA: A0201, A0202, B0702, B2703, B2705, B5701, A0203, A0206, A6802 и их комбинациями. Например, 1028790 представляет собой тестовый набор для A0201, A0202, A0203, A0206, A6802. [00104] In one embodiment, the disclosed systems and methods improve the predictive value of peptide binding to MHC-I protein complexes encoded by HLA alleles: A0201, A0202, B0702, B2703, B2705, B5701, A0203, A0206, A6802, and combinations thereof. For example, 1028790 is a test case for A0201, A0202, A0203, A0206, A6802.

Аллельallele Тестовый наборtest set A0201A0201 10287901028790 A0202A0202 10287901028790 B0702B0702 10289281028928 B2703B2703 315174315174 B2705B2705 10291251029125 B5701B5701 10290611029061 A0203A0203 10287901028790 A0206A0206 10287901028790 A6802A6802 10287901028790

[00105] Прогностичность может быть улучшена по сравнению с существующими нейронными системами, в том числе без исключения NetMHCpan, MHCflurry, sNeubula и PSSM. [00105] Predictability can be improved over existing neural systems, including but not limited to NetMHCpan, MHCflurry, sNeubula, and PSSM.

III. Терапевтические средстваIII. Therapeutic agents

[00106] Раскрытые системы и способы применимы для идентификации пептидов, которые связываются с MHC-I Т-клеток и целевых клеток. В одном варианте осуществления пептиды представляют собой опухолеспецифические пептиды, вирусные пептиды или пептид, который демонстрируется на MHC-I целевой клетки. Целевая клетка может представлять собой опухолевую клетку, раковую клетку или клетку, инфицированную вирусом. Пептиды как правило демонстрируются на антигенпрезентирующих клетках, которые затем представляют пептидный антиген CD8+ клеткам, например цитотоксическим Т-клеткам. Связывание пептидного антигена с Т-клеткой активирует или стимулирует Т-клетку. Таким образом, в одном варианте осуществления представлена вакцина, например противораковая вакцина, содержащая один или более пептидов, идентифицированных с помощью раскрытых систем и способов. [00106] The disclosed systems and methods are useful for identifying peptides that bind to MHC-I of T cells and target cells. In one embodiment, the peptides are tumor-specific peptides, viral peptides, or a peptide that is displayed on the MHC-I of the target cell. The target cell may be a tumor cell, a cancer cell, or a cell infected with a virus. Peptides are typically displayed on antigen-presenting cells, which then present the peptide antigen to CD8+ cells, such as cytotoxic T cells. Binding of a peptide antigen to a T cell activates or stimulates the T cell. Thus, in one embodiment, a vaccine, such as a cancer vaccine, is provided, comprising one or more of the peptides identified by the disclosed systems and methods.

[00107] Другой вариант осуществления относится к антителу или его антигенсвязывающему фрагменту, который связывается с пептидом, комплексом пептидный антиген-MHC-I или и тем, и другим. [00107] Another embodiment relates to an antibody, or antigen-binding fragment thereof, that binds to a peptide, a peptide antigen-MHC-I complex, or both.

[00108] Хотя были описаны конкретные варианты осуществления настоящего изобретения, специалистам в данной области техники будет понятно, что существуют другие варианты осуществления, которые эквивалентны описанным вариантам осуществления. Соответственно, следует понимать, что настоящее изобретение не ограничивается конкретными проиллюстрированными вариантами осуществления, а только объемом прилагаемой формулы изобретения.[00108] While specific embodiments of the present invention have been described, those skilled in the art will appreciate that there are other embodiments that are equivalent to the described embodiments. Accordingly, it should be understood that the present invention is not limited to the specific illustrated embodiments, but only by the scope of the appended claims.

ПРИМЕРЫEXAMPLES

Пример 1: Оценка существующих моделей прогнозированияExample 1: Evaluation of Existing Predictive Models

[00109] Оценивали модели прогнозирования NetMHCpan, sNebula, MHCflurry, CNN, PSSM. Площадь под кривой ROC использовали в качестве измерения эффективности. Значение 1 - хорошая эффективность, 0 - плохая эффективность, и 0,5 - случайное предположение. В таблице 1 показаны модели и используемые данные. [00109] NetMHCpan, sNebula, MHCflurry, CNN, PSSM prediction models were evaluated. The area under the ROC curve was used as a measure of effectiveness. A value of 1 is good performance, 0 is poor performance, and 0.5 is a random guess. Table 1 shows the models and data used.

Таблица 1: различные модели для прогнозирования связывания пептида с белковыми комплексами MHC-I, кодируемыми указанными аллелямиTable 1: Various models for predicting peptide binding to MHC-I protein complexes encoded by the indicated alleles

NetMHCpanNetMHCpan Нейронная сеть с парным обучениемPaired neural network sNebulasNebula SVM, предназначенный для нахождения парного подобияSVM designed to find pairwise similarity MHCflurryMHCflurry Ансамбль нейронных сетейEnsemble of Neural Networks CNNCNN Сверточная нейронная сетьConvolutional Neural Network PSSMPSSM Позиционная весовая матрицаPositional weight matrix

[00110] На фиг. 12 показаны данные оценки, показывающие, что CNN, обученная, как описано в данном документе, превосходит другие модели в большинстве тестовых случаев, включая текущий аналог, NetMHCpan. На фиг. 12 показана тепловая карта AUC, демонстрирующая результаты применения современных моделей и описанных в настоящее время способов («CNN_ours») к тем же 15 наборам тестовых данных. На фиг. 12 диагональные линии от нижнего левого угла к верхнему правому обычно указывают на более высокое значение, чем тоньше линии, тем выше значение, а чем толще линии, тем ниже значение. Диагональные линии снизу справа к верху слева указывают на более низкое значение, чем тоньше линии, тем ниже значение и чем толще линии, тем выше значение.[00110] FIG. 12 shows evaluation data showing that a CNN trained as described here outperforms other models in most test cases, including the current counterpart, NetMHCpan. In FIG. 12 is an AUC heatmap showing the results of applying the current models and currently described methods ("CNN_ours") to the same 15 test datasets. In FIG. 12 diagonal lines from bottom left to top right usually indicate a higher value, the thinner the lines, the higher the value, and the thicker the lines, the lower the value. Diagonal lines from bottom right to top left indicate a lower value, the thinner the lines, the lower the value, and the thicker the lines, the higher the value.

Пример 2: Проблемы модели CNNExample 2: CNN Model Problems

[00111] Обучение CNN предусматривает множество случайных процессов (например, подача данных в мини-пакетах, стохастический элемент, входящий в градиент по исключению, шумы и т. д.), поэтому воспроизводимость процесса обучения может быть проблематичной. Например, на фиг. 12 показано, что AUC Vang(«Yeeling») не может быть воспроизведена идеально при реализации одного и того же алгоритма на одних и тех же данных. Vang, et al., HLA class I binding prediction via convolutional neural networks, Bioinformatics, Sep 1;33(17):2658-2665 (2017).[00111] CNN training involves many random processes (eg, mini-batch feeds, stochastic element entering gradient by elimination, noise, etc.), so reproducibility of the training process can be problematic. For example, in FIG. 12 shows that AUC Vang("Yeeling") cannot be reproduced perfectly when implementing the same algorithm on the same data. Vang, et al., HLA class I binding prediction via convolutional neural networks, Bioinformatics, Sep 1;33(17):2658-2665 (2017).

[00112] В целом, CNN менее сложна, чем другие фреймворки глубокого обучения, такие как Deep Neural Network, ввиду характера совместного использования параметров, однако это она по-прежнему представляет собой сложный алгоритм.[00112] In general, CNN is less complex than other deep learning frameworks such as the Deep Neural Network due to the nature of parameter sharing, however it is still a complex algorithm.

[00113] Стандартная CNN обеспечивает извлечение признаков из данных с помощью окна фиксированного размера, но информация о связывании пептида может не кодироваться с одинаковой длиной. В настоящем раскрытии, поскольку исследования в области биологии показали, что один тип механизма связывания происходит в масштабе с 7 аминокислотами в пептидной цепи, можно использовать размер окна 7, и хотя данный размер окна обеспечивает хорошее выполнение, он может быть не достаточным для объяснения других типов факторов связывания во всех проблемах связывания HLA.[00113] The standard CNN provides feature extraction from data using a fixed size window, but the peptide binding information may not be encoded with the same length. In the present disclosure, since biology studies have shown that one type of binding mechanism occurs at the scale of 7 amino acids in the peptide chain, a window size of 7 can be used, and although this window size provides good performance, it may not be sufficient to explain other types. binding factors in all HLA binding problems.

[00114] На фиг. 13A - фиг. 13C показано расхождение между различными моделями. На фиг. 13A показано 15 наборов тестовых данных из данных связывания HLA, еженедельно публикуемых IEDB. Test_id помечен авторами данного раскрытия как уникальный идентификатор для всех 15 наборов тестовых данных. IEDB - это идентификатор выпуска данных IEDB, в одном выпуске IEDB может быть несколько различных поднаборов данных, относящихся к разным категориям HLA. HLA представляет собой тип HLA, который связывается с пептидами. Длина представляет собой длину связывания пептидов с HLA. Тестовый размер - это количество записей, которые есть в этом наборе тестирования. Обучающий размер - это количество записей, имеющихся в этом наборе для обучения. Доля связываний - это отношение связываний к сумме связываний и отсутствие связываний в наборе данных для обучения, авторы перечисляют его в данном документе для измерения асимметрии данных для обучения. Размер связываний - это количество связываний в наборе данных для обучения, авторы используют его для вычисления доли связываний.[00114] FIG. 13A-FIG. 13C shows the discrepancy between different models. In FIG. 13A shows 15 test data sets from the HLA binding data released weekly by the IEDB. Test_id is marked by the authors of this disclosure as a unique identifier for all 15 test cases. IEDB is the IEDB data release identifier, there can be several different subsets of data in one IEDB release belonging to different HLA categories. HLA is a type of HLA that binds to peptides. The length is the binding length of the peptides to HLA. The test size is the number of records that this test set has. The training size is the number of records in this training set. The ratio of bindings is the ratio of bindings to the sum of bindings and the absence of bindings in the training dataset, the authors list it in this document to measure the skewness of the training data. The size of bindings is the number of bindings in the training dataset, the authors use it to calculate the percentage of bindings.

[00115] На фиг. 13B - фиг. 13C продемонстрированы трудности с воспроизведением реализации CNN. Что касается различий между моделями, на фиг. 13B - фиг. 13C представлены 0 различий между моделями. На фиг. 13B - фиг. 13C показано, что реализация Adam не соответствует опубликованным результатам. [00115] FIG. 13B-FIG. 13C demonstrates the difficulty in reproducing a CNN implementation. As regards the differences between the models, in Fig. 13B-FIG. 13C shows 0 differences between models. In FIG. 13B -FIG. 13C shows that Adam's implementation does not match the published results.

Пример 3: Смещение в наборах данныхExample 3: Offset in datasets

[00116] Было выполнено разделение обучающего/тестового набора. Разделение обучающего/тестового набора - это измерение, предназначенное для предотвращения переобучения, однако эффективность измерения может зависеть от выбранных данных. Эффективность между моделями значительно различается независимо от того, как они тестируются на одном и том же аллеле гена MHC (A*02:01). Это показывает смещение AUC, полученное при выборе смещенного тестового набора, фиг. 14. Результаты с применением описанных способов на обучающем/тестовом наборе со смещением указаны в столбце «CNN*1», где показана более низкая эффективность, чем представленная на фиг. 12. На фиг. 14 диагональные линии от нижнего левого угла к верхнему правому обычно указывают на более высокое значение, чем тоньше линии, тем выше значение, а чем толще линии, тем ниже значение. Диагональные линии снизу справа к верху слева указывают на более низкое значение, чем тоньше линии, тем ниже значение и чем толще линии, тем выше значение.[00116] A training/test set split was performed. The training/test set split is a measurement designed to prevent overfitting, however the effectiveness of the measurement may depend on the data selected. Performance varies significantly between models regardless of how they are tested on the same MHC allele (A*02:01). This shows the AUC bias obtained by selecting the biased test set, FIG. 14 . The results using the described methods on the biased training/test set are indicated in the "CNN*1" column, which shows lower performance than that shown in FIG. 12 . In FIG. 14 diagonal lines from bottom left to top right usually indicate a higher value, the thinner the lines, the higher the value, and the thicker the lines, the lower the value. Diagonal lines from bottom right to top left indicate a lower value, the thinner the lines, the lower the value, and the thicker the lines, the higher the value.

Пример 4: Смещение SRCCExample 4: SRCC Offset

[00117] Выбирали лучший коэффициент ранговой корреляции Спирмена (SRCC) из 5 протестированных моделей и сравнивали с размером нормализованных данных. На фиг. 15 показано, что, чем меньше размер теста, тем лучше SRRC. SRCC измеряет несоответствие между рангом прогнозирования и рангом метки. Чем больше размер теста, тем больше вероятность нарушения порядка ранжирования. [00117] The best Spearman Rank Correlation Coefficient (SRCC) was selected from the 5 models tested and compared to the size of the normalized data. In FIG. 15 shows that the smaller the test size, the better the SRRC. SRCC measures the discrepancy between prediction rank and label rank. The larger the test size, the more likely it is that the ranking order will be violated.

Пример 5: Сравнение градиентного спускаExample 5: Gradient Descent Comparison

[00118] Проводили сравнение между Adam и RMSprop. Adam представляет собой алгоритм для градиентной оптимизации первого порядка стохастических целевых функций, основанный на адаптивных оценках моментов более низкого порядка. RMSprop (для среднеквадратичного распространения) также является способом, в котором скорость обучения адаптируется для каждого из параметров.[00118] A comparison was made between Adam and RMSprop. Adam is a first order gradient optimization algorithm for stochastic objective functions based on lower order adaptive moment estimates. RMSprop (for root mean square propagation) is also the way in which the learning rate is adapted for each of the parameters.

[00119] На фиг. 16A - фиг. 16C показано, что RMSprop имеет улучшение по большей части набора данных по сравнению с Adam. Adam представляет собой оптимизатор на основе импульса, который вначале существенно изменяет параметры по сравнению с RMSprop. Улучшение может относиться к следующему: 1) поскольку дискриминатор руководит всем процессом обучения GAN, если он следует импульсу и существенно обновляет свои параметры, то генератор завершает работу в неоптимальном состоянии; 2) пептидные данные отличаются от изображений, которые допускают меньше ошибок при генерировании. Небольшая разница в 9~30 положениях может значительно изменить результаты связывания, тогда как целые пиксели изображения могут быть изменены, но останутся в той же категории изображения. Adam стремится к дальнейшему исследованию в зоне параметров, но это означает, что для каждой позиции в зоне легче; в то время как RMSprop останавливается дольше в каждой точке и может обнаруживать незначительные изменения параметра, указывающие на значительное улучшение конечного результата дискриминатора, и передавать эти знания генератору для создания лучше смоделированных пептидов. [00119] FIG. 16A - FIG. 16C shows that RMSprop has an improvement over most of the dataset compared to Adam. Adam is a momentum-based optimizer that changes the parameters significantly in the beginning compared to RMSprop. The improvement may refer to the following: 1) since the discriminator is in charge of the entire training process of the GAN, if it follows the pulse and updates its parameters significantly, then the generator terminates in a non-optimal state; 2) peptide data is different from images, which allow fewer errors when generated. A small difference of 9~30 positions can significantly change the linking results, while whole image pixels can be changed but remain in the same image category. Adam is committed to further exploration in the options zone, but that means it's easier for each position in the zone; while RMSprop pauses longer at each point and can detect small parameter changes indicating a significant improvement in the end result of the discriminator and pass that knowledge on to the generator to generate better modeled peptides.

Пример 5: Формат пептидного обученияExample 5: Peptide Training Format

[00120] В таблице 2 показан пример данных взаимодействия MHC-I. Показаны пептиды с разной аффинностью связывания для указанного аллеля HLA. Пептиды были обозначены как связывающие (1) или несвязывающие (-1). Категория связывания была преобразована из полумаксимальной ингибирующей концентрации (IC₅₀). Прогнозируемый выход указан в единицах IC₅₀ нМ. Меньшее число указывает на более высокую аффинность. Пептиды со значениями IC₅₀<50 нМ считаются высокоаффинными, с <500 нМ - с промежуточной аффинностью, а с <5000 нМ - низкой аффинностью. Большинство известных эпитопов характеризуются высокой или промежуточной аффинностью. Некоторые характеризуются низкой активностью. Ни один из известных Т-клеточных эпитопов не имеет значения IC₅₀ более 5000 нМ. [00120] Table 2 shows an example of MHC-I interaction data. Shown are peptides with different binding affinities for the indicated HLA allele. The peptides were designated as binding (1) or non-binding (-1). The binding category was converted from the half-maximal inhibitory concentration (IC ₅₀ ). The predicted output is given in units of IC ₅₀ nM. A lower number indicates a higher affinity. Peptides with IC ₅₀ values <50 nM are considered high affinity, those with <500 nM intermediate affinity, and <5000 nM low affinity. Most of the known epitopes are characterized by high or intermediate affinity. Some are characterized by low activity. None of the known T cell epitopes has an IC ₅₀ value greater than 5000 nM.

Таблица 2. Пептиды для идентифицированного аллеля HLA, демонстрирующие связывание или отсутствие связывания пептида с белковым комплексом MHC-I, кодируемым аллелем HLA.Table 2. Peptides for an identified HLA allele showing peptide binding or not binding to the MHC-I protein complex encoded by the HLA allele.

ПептидPeptide HLAHLA Категория связыванияBinding Category AAAAAAAALY (SEQ ID NO:1)AAAAAAAALY (SEQ ID NO:1) A829:02A829:02 1one AAAAALQAK (SEQ ID NO:2)AAAAALQAK (SEQ ID NO:2) A*03:01A*03:01 1one AAAAALWL (SEQ ID NO:3)AAAAALWL (SEQ ID NO:3) C*16:01C*16:01 1one AAAAARAAL (SEQ ID NO:4)AAAAARAAL (SEQ ID NO:4) B*14:02B*14:02 -1-one AAAAEEEEE (SEQ ID NO:5)AAAAEEEEE (SEQ ID NO:5) A*02:01A*02:01 -1-one AAAAFEAAL (SEQ ID NO:6)AAAAFEAAL (SEQ ID NO:6) B*48:01B*48:01 1one AAAAPYAGW (SEQ ID NO:7)AAAAPYAGW (SEQ ID NO:7) B*58:01B*58:01 1one AAAARAAAL (SEQ ID NO:8)AAAARAAAL (SEQ ID NO:8) B*14:02B*14:02 1one AAAATCALV (SEQ ID NO:9)AAAATCALV (SEQ ID NO:9) A*02:01A*02:01 1one AAAATCALV (SEQ ID NO:9)AAAATCALV (SEQ ID NO:9) A*02:02A*02:02 1one AAAATCALV (SEQ ID NO:9)AAAATCALV (SEQ ID NO:9) A*02:03A*02:03 1one AAAATCALV (SEQ ID NO:9)AAAATCALV (SEQ ID NO:9) A*02:06A*02:06 1one AAAATCALV (SEQ ID NO:9)AAAATCALV (SEQ ID NO:9) A*68:02A*68:02 1one AAADAAAAL (SEQ ID NO:10)AAADAAAAL (SEQ ID NO:10) C*03:04C*03:04 1one AAADFAHAE (SEQ ID NO:11)AAADFAHAE (SEQ ID NO:11) B*44:03B*44:03 -1-one AAADPKVAF (SEQ ID NO:12)AAADPKVAF (SEQ ID NO:12) C*16:01C*16:01 1one

Пример 6: Сравнение GANExample 6: Comparing GANs

[00121] На фиг. 17 показано, что сочетание смоделированных (например, фальшивых, поддельных) положительных данных, реальных положительных данных и реальных отрицательных данных приводит к лучшему прогнозированию, чем одни только реальные положительные и реальные отрицательные данные или смоделированные положительные данные и реальные отрицательные данные. Результаты описанных способов показаны в столбце «CNN» и двух столбцах «GAN-CNN». На фиг. 17 диагональные линии от нижнего левого угла к верхнему правому обычно указывают на более высокое значение, чем тоньше линии, тем выше значение, а чем толще линии, тем ниже значение. Диагональные линии снизу справа к верху слева указывают на более низкое значение, чем тоньше линии, тем ниже значение и чем толще линии, тем выше значение. GAN улучшает эффективность A0201 на всех тестовых наборах. Применение экстрактора информации (например, встраивание CNN+skip-gram) хорошо работает для пептидных данных, поскольку информация о связывании пространственно закодирована. Данные, полученные из раскрытой GAN, можно рассматривать как способ «условного исчисления», который помогает сделать распределение данных более плавным, что упрощает обучение модели. Кроме того, функция потерь GAN заставляет GAN создавать четкие экземпляры, а не среднее значение blue, что отличается от классических способов, таких как вариационные автокодировщики. Поскольку потенциальных схем химического связывания много, усреднение различных паттернов к средней точке было бы оптимальным, следовательно, даже если GAN может переобучиться и столкнуться с проблемой коллапса режима, она будет лучше моделировать паттерны.[00121] FIG. 17 shows that a combination of simulated (eg, fake, fake) positive data, real positive data, and real negative data results in a better prediction than real positive and real negative data alone, or simulated positive data and real negative data. The results of the methods described are shown in the "CNN" column and the two "GAN-CNN" columns. In FIG. 17 diagonal lines from bottom left to top right usually indicate a higher value, the thinner the lines, the higher the value, and the thicker the lines, the lower the value. Diagonal lines from bottom right to top left indicate a lower value, the thinner the lines, the lower the value, and the thicker the lines, the higher the value. GAN improves the performance of A0201 on all test sets. Using an information extractor (eg, CNN+skip-gram embedding) works well for peptide data because the binding information is spatially encoded. The data obtained from the exposed GAN can be thought of as a way of "conditional calculus" that helps make the distribution of the data smoother, making it easier to train the model. In addition, the GAN loss function forces the GAN to create clear instances rather than blue mean, which is different from classical ways such as variational autoencoders. Since there are many potential chemical bonding patterns, averaging different patterns towards the midpoint would be optimal, hence even if the GAN can overfit and face the mode collapse problem, it will model the patterns better.

[00122] Раскрытые способы превосходят современные системы отчасти ввиду применения различных данных для обучения. Раскрытые способы превосходят применение только реальных положительных и реальных отрицательных данных, поскольку генератор может увеличивать частоту некоторых слабых сигналов связывания, что увеличивает частоту некоторых паттернов связывания и уравновешивает веса различных паттернов связывания в наборе данных для обучения, что делает обучение модели более легким.[00122] The disclosed methods are superior to current systems in part because of the use of different training data. The disclosed methods are superior to using only real positive and real negative data because the generator can increase the frequency of some weak binding signals, which increases the frequency of some binding patterns, and balances the weights of different binding patterns in the training dataset, which makes model training easier.

[00123] Раскрытые способы превосходят применение только поддельных положительных и реальных отрицательных данных, поскольку класс поддельных положительных данных имеет проблему коллапса режима, что означает, что он не может представлять паттерны связывания для всей популяции; аналогично вводу реальных положительных и реальных отрицательных данных в модель в качестве данных для обучения, но при этом сокращается количество обучающих экземпляров, в результате чего модель имеет меньше данных для применения в обучении.[00123] The disclosed methods are superior to using only fake positives and real negatives because the fake positive data class has a mode collapse problem, meaning it cannot represent binding patterns for the entire population; similar to entering real positive and real negative data into the model as training data, but this reduces the number of training instances, resulting in the model having less data to use in training.

[00124] На фиг. 17 используются следующие столбцы: тестовый идентификатор: уникальный для одного тестового набора, используется для различения тестовых наборов; IEDB: идентификатор набора данных в базе данных IEDB; HLA: тип аллеля комплекса, связывающегося с пептидами; длина: количество аминокислот в пептидах; тестовый размер: количество найденных наблюдений в этом наборе данных тестирования; обучающий размер: количество наблюдений в этом наборе данных для обучения; доля связываний: доля связываний в наборе данных для обучения; размер связываний: количество связываний в наборе данных для обучения.[00124] FIG. 17 , the following columns are used: test identifier: unique for one test case, used to distinguish between test cases; IEDB: data set identifier in the IEDB database; HLA: peptide binding complex allele type; length: number of amino acids in peptides; test size: number of observations found in this test dataset; training size: the number of observations in this training dataset; proportion of associations: percentage of associations in the training dataset; binding size: the number of bindings in the training dataset.

[00125] Если четко не указано иное, ни в коем случае не предполагается, что любой способ, изложенный в данном документе, должен истолковываться как требующий выполнения его стадий в определенном порядке. Соответственно, если в формуле изобретения в действительности не указан порядок стадий или в формуле изобретения или в описании конкретно не указано, что стадии должны ограничиваться конкретным порядком, то никоим образом не предполагается, что порядок таким образом выводится из контекста. Это справедливо для любого возможного неявного основания для интерпретации, в том числе логики порядка стадий или последовательности выполнения технологических операций; общеупотребительного значения, полученного на основе грамматической конструкции или пунктуации; числа или типа вариантов осуществления, описанных в описании.[00125] Unless expressly stated otherwise, it is by no means intended that any method set forth herein should be construed as requiring its steps to be performed in a particular order. Accordingly, if the claims do not actually specify the order of the steps, or the claims or the description do not specifically state that the steps are to be limited to a particular order, then the order is not intended to be thus taken out of context. This is true for any possible implicit basis for interpretation, including the logic of the order of stages or the sequence of execution of technological operations; commonly used meaning derived from grammatical construction or punctuation; the number or type of embodiments described in the specification.

[00126] Хотя в вышеприведенном описании настоящее изобретение было описано применительно к некоторым вариантам его осуществления и было приведено много подробностей с целью иллюстрации, специалистам в данной области будет очевидно, что настоящее изобретение допускает дополнительные варианты осуществления, и что некоторые из подробностей, описанных в данном документе, могут значительно варьироваться без отклонения от основных принципов настоящего изобретения. [00126] Although in the foregoing description the present invention has been described in relation to some of its embodiments and many details have been given for the purpose of illustration, it will be apparent to those skilled in the art that the present invention is capable of additional embodiments and that some of the details described in this document, may vary significantly without deviating from the basic principles of the present invention.

[00127] Все ссылки, цитируемые в данном документе, полностью включены посредством ссылки. Настоящее изобретение может быть осуществлено в других конкретных формах без отклонения от его сущности или основных атрибутов, и соответственно следует сделать ссылку на прилагаемую формулу изобретения, а не на предшествующее описание, которое указывает на объем настоящего изобретения.[00127] All references cited herein are incorporated by reference in their entirety. The present invention may be embodied in other specific forms without deviating from its spirit or essential attributes, and accordingly, reference should be made to the appended claims rather than to the foregoing description, which indicates the scope of the present invention.

Иллюстративные варианты осуществленияIllustrative Embodiments

Вариант осуществления 1. Способ обучения генеративно-состязательной сети (GAN), предусматривающий: генерирование посредством генератора GAN все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные; представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные; представление положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействии полипептид-MHC-I в CNN для генерирования оценок прогноза; определение на основании оценок прогноза того, что GAN обучена; и выведение GAN и CNN.Embodiment 1. A method for training a generative adversarial network (GAN) comprising: generating, by means of a GAN generator, progressively more accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated polypeptide-MHC-I interaction data as positive; presenting positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data to a convolutional neural network (CNN) until the CNN classifies the polypeptide-MHC interaction data -I as positive or negative; presenting positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data to the CNN to generate predictive scores; determining, based on the prediction estimates, that the GAN is trained; and derivation of GANs and CNNs.

Вариант осуществления 2. Способ по варианту осуществления 1, где генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как реальные, предусматривает: генерирование посредством генератора GAN в соответствии с набором параметров GAN первого смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединение первого смоделированного набора данных с положительными реальными взаимодействиями полипептид-MHC-I для аллеля MHC и отрицательными реальными взаимодействиями полипептид-MHC-I для аллеля MHC для создания набора данных для обучения GAN; определение с помощью дискриминатора в соответствии с решающей границей, является ли взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN смоделированным положительным, реальным положительным или реальным отрицательным; корректировку, основанную на точности определения дискриминатором, одного или более из набора параметров GAN или решающей границы; и повторение стадий a-d до тех пор, пока не будет соблюден первый критерий останова.Embodiment 2. The method of Embodiment 1, wherein generating increasingly accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated polypeptide-MHC-I interaction data as real, comprises: generating via a generator GAN according to the GAN parameter set of the first simulated dataset containing simulated positive polypeptide-MHC-I interactions for the MHC allele; combining the first simulated data set with positive real polypeptide-MHC-I interactions for the MHC allele and negative real polypeptide-MHC-I interactions for the MHC allele to create a GAN training data set; determining, with a discriminator according to a decision boundary, whether the polypeptide-MHC-I interaction for the MHC allele in the GAN training dataset is simulated positive, real positive, or real negative; an adjustment based on the accuracy of the discriminator's determination of one or more of the GAN parameter set or decision boundary; and repeating steps a-d until the first stop criterion is met.

Вариант осуществления 3. Способ по варианту осуществления 2, где представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные, предусматривает: генерирование посредством генератора GAN в соответствии с набором параметров GAN второго смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля HLA; объединение второго смоделированного набора данных, положительных реальных взаимодействий полипептид-MHC-I для аллеля MHC и отрицательных реальных взаимодействий полипептид-MHC-I для аллеля MHC для создания набора данных для обучения CNN; представление набора данных для обучения CNN в сверточную нейронную сеть (CNN); классификацию посредством CNN в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN как положительного или отрицательного; корректировку, основанную на точности классификации посредством CNN, одного или более из набора параметров CNN; и повторение стадий h-j до тех пор, пока не будет соблюден второй критерий останова.Embodiment 3. The method of Embodiment 2, wherein presenting positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data into a convolutional neural network (CNN) until until the CNN classifies the polypeptide-MHC-I interaction data as positive or negative, provides for: generating, by means of a GAN generator in accordance with the GAN parameter set, a second simulated dataset containing simulated positive polypeptide-MHC-I interactions for the HLA allele; combining a second simulated dataset, positive real-life polypeptide-MHC-I interactions for the MHC allele, and negative real-life polypeptide-MHC-I interactions for the MHC allele to create a CNN training dataset; representing a CNN training dataset into a convolutional neural network (CNN); classifying by the CNN according to the polypeptide-MHC-I interaction CNN parameter set for the MHC allele in the CNN training data set as positive or negative; an adjustment based on the classification accuracy by the CNN, one or more of the set of CNN parameters; and repeating steps h-j until the second stopping criterion is met.

Вариант осуществления 4. Способ по варианту осуществления 3, где представление положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в CNN для генерирования оценок прогноза предусматривает: классификацию посредством CNN в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного.Embodiment 4. The method of Embodiment 3, wherein presenting positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data in a CNN to generate predictive scores comprises: classifying by the CNN according to a set of polypeptide interaction CNN parameters -MHC-I for MHC allele as positive or negative.

Вариант осуществления 5. Способ по варианту осуществления 4, где определение на основании оценок прогноза того, что GAN обучена, предусматривает определение точности классификации посредством CNN, при этом, когда (если) точность классификации удовлетворяет третьему критерию останова, выведение GAN и CNN.Embodiment 5. The method of Embodiment 4, wherein determining based on the prediction scores that the GAN has been trained comprises determining the classification accuracy by the CNN, wherein when (if) the classification accuracy satisfies the third stopping criterion, deriving the GAN and the CNN.

Вариант осуществления 6. Способ по варианту осуществления 4, где определение на основании оценок прогноза того, что GAN обучена, предусматривает определение точности классификации посредством CNN, при этом, когда (если) точность классификации не удовлетворяет третьему критерию останова, возвращение к стадии а.Embodiment 6. The method of Embodiment 4, wherein determining based on the prediction scores that the GAN has been trained comprises determining the classification accuracy by the CNN, wherein when (if) the classification accuracy does not satisfy the third stopping criterion, returning to step a.

Вариант осуществления 7. Способ по варианту осуществления 2, где параметры GAN включают одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.Embodiment 7. The method of Embodiment 2, wherein the GAN parameters include one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

Вариант осуществления 8. Способ по варианту осуществления 2, где аллель MHC представляет собой аллель HLA.Embodiment 8. The method of Embodiment 2 wherein the MHC allele is an HLA allele.

Вариант осуществления 9. Способ по варианту осуществления 8, где тип аллеля HLA включает один или более из HLA-A, HLA-B, HLA-C или их подтип. Embodiment 9. The method of Embodiment 8 wherein the HLA allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

Вариант осуществления 10. Способ по варианту осуществления 8, где длина аллеля HLA составляет от приблизительно 8 до приблизительно 12 аминокислот.Embodiment 10. The method of Embodiment 8 wherein the HLA allele length is from about 8 to about 12 amino acids.

Вариант осуществления 11. Способ по варианту осуществления 8, где длина аллеля HLA составляет от приблизительно 9 до приблизительно 11 аминокислот.Embodiment 11. The method of Embodiment 8 wherein the HLA allele length is from about 9 to about 11 amino acids.

Вариант осуществления 12. Способ по варианту осуществления 1, дополнительно предусматривающий: представление набора данных в CNN, где набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I; классификацию посредством CNN каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и синтез полипептида из кандидатного взаимодействия полипептид-MHC-I, классифицируемого как положительное взаимодействие полипептид-MHC-I.Embodiment 12. The method of Embodiment 1, further comprising: presenting a data set to a CNN, where the data set contains a plurality of candidate polypeptide-MHC-I interactions; classifying by CNN each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and synthesizing a polypeptide from a candidate polypeptide-MHC-I interaction classified as a positive polypeptide-MHC-I interaction.

Вариант осуществления 13. Полипептид, полученный посредством способа по варианту осуществления 12. Embodiment 13 A polypeptide obtained by the method of Embodiment 12.

Вариант осуществления 14. Способ по варианту осуществления 12, где полипептид представляет собой опухолеспецифический антиген.Embodiment 14. The method of Embodiment 12, wherein the polypeptide is a tumor-specific antigen.

Вариант осуществления 15. Способ по варианту осуществления 12, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем MHC.Embodiment 15. The method of Embodiment 12, wherein the polypeptide comprises an amino acid sequence that specifically binds to the MHC-I protein encoded by the selected MHC allele.

Вариант осуществления 16. Способ по варианту осуществления 1, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем. Embodiment 16. The method of Embodiment 1, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with the selected allele.

Вариант осуществления 17. Способ по варианту осуществления 16, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций. Embodiment 17. The method of Embodiment 16 wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705, and combinations thereof.

Вариант осуществления 18. Способ по варианту осуществления 1, где генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, предусматривает оценку выражения градиентного спуска для генератора GAN.Embodiment 18. The method of Embodiment 1, wherein generating increasingly accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated polypeptide-MHC-I interaction data as positive, involves evaluating a gradient descent expression. for the GAN generator.

Вариант осуществления 19. Способ по варианту осуществления 1, где генерирование все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, предусматривает: итеративное выполнение (например, оптимизацию) дискриминатора GAN для увеличения возможности присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I, низкой вероятности положительным смоделированным данным взаимодействия полипептид-MHC-I и низкой вероятности отрицательным реальным данным взаимодействия полипептид-MHC-I; и итеративное выполнение (например, оптимизацию) генератора GAN для увеличения вероятности того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.Embodiment 19. The method of Embodiment 1, wherein generating increasingly accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated polypeptide-MHC-I interaction data as positive, involves: iteratively performing ( for example, optimizing) the GAN discriminator to increase the ability to assign high probability to positive real polypeptide-MHC-I interaction data, low probability to positive simulated polypeptide-MHC-I interaction data, and low probability to negative real polypeptide-MHC-I interaction data; and iteratively performing (eg, optimizing) the GAN generator to increase the likelihood that positive simulated polypeptide-MHC-I interaction data will score high.

Вариант осуществления 20. Способ по варианту осуществления 1, где представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные, предусматривает: выполнение процедуры свертки; выполнение процедуры нелинейности (например, ReLu), выполнение процедуры объединения или субдискретизации; и выполнение процедуры классификации (полносвязный слой).Embodiment 20. The method of Embodiment 1, wherein presenting positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data into a convolutional neural network (CNN) until until the CNN classifies the polypeptide-MHC-I interaction data as positive or negative, provides for: performing a convolution procedure; performing a non-linearity procedure (eg, ReLu), performing a pooling or subsampling procedure; and performing a classification procedure (fully connected layer).

Вариант осуществления 21. Способ по варианту осуществления 1, где GAN включает глубокую сверточную GAN (DCGAN).Embodiment 21. The method of Embodiment 1, wherein the GAN includes a deep convolutional GAN (DCGAN).

Вариант осуществления 22. Способ по варианту осуществления 2, где первый критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 22. The method of Embodiment 2, wherein the first stopping criterion includes an estimate of a Mean Square Error (MSE) function.

Вариант осуществления 23. Способ по варианту осуществления 3, где второй критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 23. The method of Embodiment 3, wherein the second stopping criterion includes an estimate of a Mean Square Error (MSE) function.

Вариант осуществления 24. Способ по варианту осуществления 5 или 6, где третий критерий останова включает оценку функции площади под кривой (AUC).Embodiment 24. The method of Embodiment 5 or 6, wherein the third stopping criterion includes an estimate of an area under the curve (AUC) function.

Вариант осуществления 25. Способ по варианту осуществления 1, где оценка прогноза представляет собой вероятность того, что положительные реальные данные взаимодействия полипептид-MHC-I классифицированы как положительные данные взаимодействия полипептид-MHC-I.Embodiment 25. The method of Embodiment 1, wherein the predictive score is the probability that positive real polypeptide-MHC-I interaction data is classified as positive polypeptide-MHC-I interaction data.

Вариант осуществления 26. Способ по варианту осуществления 1, где определение на основании оценок прогноза того, обучена ли GAN, предусматривает сравнение одной или более оценок прогноза с пороговым значением.Embodiment 26. The method of Embodiment 1, wherein determining, based on the prediction scores, whether the GAN has been trained comprises comparing one or more prediction scores with a threshold value.

Вариант осуществления 27. Способ обучения генеративно-состязательной сети (GAN), предусматривающий: генерирование посредством генератора GAN все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные; представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные; представление положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействии полипептид-MHC-I в CNN для генерирования оценок прогноза; определение на основании оценок прогноза того, что GAN не обучена; повторение стадий а-с до тех пор, пока не будет выполнено определение на основании оценок прогноза того, что GAN обучена; и выведение GAN и CNN.Embodiment 27. A method for training a generative adversarial network (GAN) comprising: generating increasingly accurate positive simulated polypeptide-MHC-I interaction data by the GAN generator until the GAN discriminator classifies positive simulated polypeptide-MHC-I interaction data as positive; presenting positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data to a convolutional neural network (CNN) until the CNN classifies the polypeptide-MHC interaction data -I as positive or negative; presenting positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data to the CNN to generate predictive scores; determining, based on the prediction estimates, that the GAN is not trained; repeating steps a-c until a determination is made based on prediction estimates that the GAN has been trained; and derivation of GANs and CNNs.

Вариант осуществления 28. Способ по варианту осуществления 27, где генерирование посредством генератора GAN все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, предусматривает: генерирование посредством генератора GAN в соответствии с набором параметров GAN первого смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединение первого смоделированного набора данных с положительными реальными взаимодействиями полипептид-MHC-I для аллеля MHC и отрицательными реальными взаимодействиями полипептид-MHC-I для аллеля MHC для создания набора данных для обучения GAN; определение с помощью дискриминатора в соответствии с решающей границей, является ли положительное взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN смоделированным положительным, реальным положительным или реальным отрицательным; корректировку, основанную на точности определения дискриминатором, одного или более из набора параметров GAN или решающей границы; и повторение стадий g-j до тех пор, пока не будет соблюден первый критерий останова.Embodiment 28. The method of Embodiment 27, wherein generating increasingly fine positive polypeptide-MHC-I interaction model data by the GAN generator until the GAN discriminator classifies the positive polypeptide-MHC-I interaction model as positive, comprises: generating, by means of the GAN generator, in accordance with the GAN parameter set, a first simulated dataset containing simulated positive polypeptide-MHC-I interactions for the MHC allele; combining the first simulated data set with positive real polypeptide-MHC-I interactions for the MHC allele and negative real polypeptide-MHC-I interactions for the MHC allele to create a GAN training data set; determining, with a discriminator according to a decision boundary, whether a positive polypeptide-MHC-I interaction for an MHC allele in the GAN training dataset is a simulated positive, a real positive, or a real negative; an adjustment based on the accuracy of the discriminator's determination of one or more of the GAN parameter set or decision boundary; and repeating steps g-j until the first stop criterion is met.

Вариант осуществления 29. Способ по варианту осуществления 28, где представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные, предусматривает: генерирование посредством генератора GAN в соответствии с набором параметров GAN второго смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединение второго смоделированного набора данных, известных положительных взаимодействий полипептид-MHC-I для аллеля MHC и известных отрицательных взаимодействий полипептид-MHC-I для аллеля MHC для создания набора данных для обучения CNN; представление набора данных для обучения CNN в сверточную нейронную сеть (CNN); классификацию посредством CNN в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN как положительного или отрицательного; корректировку, основанную на точности классификации посредством CNN, одного или более из набора параметров CNN; и повторение стадий n-p до тех пор, пока не будет соблюден второй критерий останова.Embodiment 29. The method of Embodiment 28, wherein presenting positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data into a convolutional neural network (CNN) until until the CNN classifies the polypeptide-MHC-I interaction data as positive or negative, provides for: generating, by means of a GAN generator in accordance with the GAN parameter set, a second simulated dataset containing simulated positive polypeptide-MHC-I interactions for the MHC allele; combining the second simulated dataset, the known positive polypeptide-MHC-I interactions for the MHC allele, and the known negative polypeptide-MHC-I interactions for the MHC allele to create a CNN training dataset; representing a CNN training dataset into a convolutional neural network (CNN); classifying by the CNN according to the polypeptide-MHC-I interaction CNN parameter set for the MHC allele in the CNN training data set as positive or negative; an adjustment based on the classification accuracy by the CNN, one or more of the set of CNN parameters; and repeating steps n-p until the second stopping criterion is met.

Вариант осуществления 30. Способ по варианту осуществления 29, где представление положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в CNN для генерирования оценок прогноза предусматривает: классификацию посредством CNN в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного.Embodiment 30. The method of Embodiment 29, wherein representing positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data in a CNN to generate predictive scores comprises: classifying by the CNN according to a set of polypeptide interaction CNN parameters -MHC-I for MHC allele as positive or negative.

Вариант осуществления 31. Способ по варианту осуществления 30, где определение на основании оценок прогноза того, что GAN обучена, предусматривает определение точности классификации посредством CNN, при этом, когда (если) точность классификации удовлетворяет третьему критерию останова, выведение GAN и CNN.Embodiment 31. The method of Embodiment 30, wherein determining, based on the prediction scores, that the GAN has been trained comprises determining the classification accuracy by the CNN, wherein when (if) the classification accuracy satisfies the third stopping criterion, deriving the GAN and the CNN.

Вариант осуществления 32. Способ по варианту осуществления 31, где определение на основании оценок прогноза того, что GAN обучена, предусматривает определение точности классификации посредством CNN, при этом, когда (если) точность классификации не удовлетворяет третьему критерию останова, возвращение к стадии а.Embodiment 32. The method of Embodiment 31, wherein determining, based on the prediction estimates that the GAN is trained, comprises determining the classification accuracy by the CNN, wherein when (if) the classification accuracy does not satisfy the third stopping criterion, returning to step a.

Вариант осуществления 33. Способ по варианту осуществления 28, где параметры GAN включают одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.Embodiment 33. The method of Embodiment 28, wherein the GAN parameters include one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

Вариант осуществления 34. Способ по варианту осуществления 33, где тип аллеля HLA включает один или более из HLA-A, HLA-B, HLA-C или их подтип. Embodiment 34. The method of Embodiment 33, wherein the HLA allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

Вариант осуществления 35. Способ по варианту осуществления 33, где длина аллеля HLA составляет от приблизительно 8 до приблизительно 12 аминокислот.Embodiment 35. The method of Embodiment 33, wherein the HLA allele length is from about 8 to about 12 amino acids.

Вариант осуществления 36. Способ по варианту осуществления 35, где длина аллеля HLA составляет от приблизительно 9 до приблизительно 11 аминокислот.Embodiment 36. The method of Embodiment 35, wherein the HLA allele length is from about 9 to about 11 amino acids.

Вариант осуществления 37. Способ по варианту осуществления 27, дополнительно предусматривающий: представление набора данных в CNN, где набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I; классификацию посредством CNN каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и синтез полипептида из кандидатного взаимодействия полипептид-MHC-I, классифицируемого как положительное взаимодействие полипептид-MHC-I.Embodiment 37. The method of Embodiment 27, further comprising: presenting a data set to a CNN, where the data set contains a plurality of candidate polypeptide-MHC-I interactions; classifying by CNN each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and synthesizing a polypeptide from a candidate polypeptide-MHC-I interaction classified as a positive polypeptide-MHC-I interaction.

Вариант осуществления 38. Полипептид, полученный посредством способа по варианту осуществления 37. Embodiment 38 A polypeptide obtained by the method of Embodiment 37.

Вариант осуществления 39. Способ по варианту осуществления 37, где полипептид представляет собой опухолеспецифический антиген.Embodiment 39. The method of Embodiment 37 wherein the polypeptide is a tumor specific antigen.

Вариант осуществления 40. Способ по варианту осуществления 37, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем MHC.Embodiment 40. The method of Embodiment 37, wherein the polypeptide comprises an amino acid sequence that specifically binds to the MHC-I protein encoded by the selected MHC allele.

Вариант осуществления 41. Способ по варианту осуществления 27, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем. Embodiment 41. The method of Embodiment 27, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with the selected allele.

Вариант осуществления 42. Способ по варианту осуществления 41, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций. Embodiment 42. The method of Embodiment 41, wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705, and combinations thereof.

Вариант осуществления 43. Способ по варианту осуществления 27, где генерирование посредством генератора GAN все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, предусматривает оценку выражения градиентного спуска для генератора GAN.Embodiment 43. The method of Embodiment 27, wherein generating increasingly accurate positive simulated polypeptide-MHC-I interaction data by the GAN generator until the GAN discriminator classifies the positive simulated polypeptide-MHC-I interaction data as positive, involves evaluating gradient descent expressions for the GAN generator.

Вариант осуществления 44. Способ по варианту осуществления 27, где генерирование посредством генератора GAN все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, предусматривает: итеративное выполнение (например, оптимизацию) дискриминатора GAN для увеличения возможности присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I, низкой вероятности положительного смоделированного взаимодействия полипептид-MHC-I и низкой вероятности отрицательным реальным данным взаимодействия полипептид-MHC-I; и итеративное выполнение (например, оптимизацию) генератора GAN для увеличения вероятности того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.Embodiment 44. The method of Embodiment 27, wherein generating increasingly fine positive polypeptide-MHC-I interaction model data by the GAN generator until the GAN discriminator classifies the positive polypeptide-MHC-I interaction model as positive, comprises: iteratively performing (eg, optimizing) the GAN discriminator to increase the ability to assign a high probability to positive real polypeptide-MHC-I interaction data, a low probability to positive simulated polypeptide-MHC-I interaction, and a low probability to negative real polypeptide-MHC-I interaction data; and iteratively performing (eg, optimizing) the GAN generator to increase the likelihood that positive simulated polypeptide-MHC-I interaction data will score high.

Вариант осуществления 45. Способ по варианту осуществления 27, где представление положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные, предусматривает: выполнение процедуры свертки; выполнение процедуры нелинейности (например, ReLu), выполнение процедуры объединения или субдискретизации; и выполнение процедуры классификации (полносвязный слой).Embodiment 45. The method of Embodiment 27, wherein presenting positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data into a convolutional neural network (CNN) until until the CNN classifies the polypeptide-MHC-I interaction data as positive or negative, provides for: performing a convolution procedure; performing a non-linearity procedure (eg, ReLu), performing a pooling or subsampling procedure; and performing a classification procedure (fully connected layer).

Вариант осуществления 46. Способ по варианту осуществления 27, где GAN включает глубокую сверточную GAN (DCGAN).Embodiment 46. The method of Embodiment 27, wherein the GAN includes a deep convolutional GAN (DCGAN).

Вариант осуществления 47. Способ по варианту осуществления 28, где первый критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 47. The method of Embodiment 28, wherein the first stopping criterion includes an estimate of a Mean Square Error (MSE) function.

Вариант осуществления 48. Способ по варианту осуществления 27, где второй критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 48. The method of Embodiment 27, wherein the second stopping criterion includes an estimate of a Mean Square Error (MSE) function.

Вариант осуществления 49. Способ по варианту осуществления 31 или 32, где третий критерий останова включает оценку функции площади под кривой (AUC).Embodiment 49. The method of embodiment 31 or 32, wherein the third stopping criterion includes an estimate of the area under the curve (AUC) function.

Вариант осуществления 50. Способ по варианту осуществления 27, где оценка прогноза представляет собой вероятность того, что положительные реальные данные взаимодействия полипептид-MHC-I классифицированы как положительные данные взаимодействия полипептид-MHC-I.Embodiment 50. The method of Embodiment 27, wherein the predictive score is the probability that positive real polypeptide-MHC-I interaction data is classified as positive polypeptide-MHC-I interaction data.

Вариант осуществления 51. Способ по варианту осуществления 27, где определение на основании оценок прогноза того, обучена ли GAN, предусматривает сравнение одной или более оценок прогноза с пороговым значением.Embodiment 51. The method of Embodiment 27, wherein determining, based on the prediction scores, whether the GAN has been trained comprises comparing one or more prediction scores with a threshold value.

Вариант осуществления 52. Способ обучения генеративно-состязательной сети (GAN), предусматривающий: генерирование посредством генератора GAN в соответствии с набором параметров GAN первого смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединение первого смоделированного набора данных с положительными реальными взаимодействиями полипептид-MHC-I и отрицательными реальными взаимодействиями полипептид-MHC-I для аллеля MHC; определение с помощью дискриминатора в соответствии с решающей границей, является ли положительное взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN положительным или отрицательным; корректировку, основанную на точности определения дискриминатором, одного или более из набора параметров GAN или решающей границы; повторение стадий a-d до тех пор, пока не будет соблюден первый критерий останова; генерирование посредством генератора GAN в соответствии с набором параметров GAN второго смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединение второго смоделированного набора данных, положительных реальных взаимодействий полипептид-MHC-I и отрицательных реальных взаимодействий полипептид-MHC-I для создания набора данных для обучения CNN; представление набора данных для обучения CNN в сверточную нейронную сеть (CNN); классификацию посредством CNN в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN как положительного или отрицательного; корректировку, основанную на точности классификации посредством CNN взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN, одного или более из набора параметров CNN; повторение стадий h-j до тех пор, пока не будет соблюден второй критерий останова; представление в CNN положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I; классификацию CNN в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного; и определение точности классификации посредством CNN взаимодействия полипептид-MHC-I для аллеля MHC, при этом, когда (если) точность классификации удовлетворяет третьему критерию останова, вывод GAN и CNN, при этом, когда (если) точность классификации не удовлетворяет третьему критерию останова, возвращение к стадии а.Embodiment 52. A method for training a generative adversarial network (GAN), comprising: generating, by means of a GAN generator, in accordance with a set of GAN parameters, a first simulated dataset containing simulated positive polypeptide-MHC-I interactions for an MHC allele; combining the first simulated dataset with positive real polypeptide-MHC-I interactions and negative real polypeptide-MHC-I interactions for the MHC allele; determining with a discriminator according to a decision boundary whether a positive polypeptide-MHC-I interaction for an MHC allele in the GAN training dataset is positive or negative; an adjustment based on the accuracy of the discriminator's determination of one or more of the GAN parameter set or decision boundary; repeating steps a-d until the first stop criterion is met; generating by the GAN generator in accordance with the GAN parameter set a second simulated dataset containing simulated positive interactions of the polypeptide-MHC-I for the MHC allele; combining a second simulated dataset, positive real polypeptide-MHC-I interactions, and negative real polypeptide-MHC-I interactions to create a CNN training dataset; representing a CNN training dataset into a convolutional neural network (CNN); classifying by the CNN according to the polypeptide-MHC-I interaction CNN parameter set for the MHC allele in the CNN training data set as positive or negative; adjusting based on classification accuracy by the polypeptide-MHC-I interaction CNN for the MHC allele in the CNN training data set, one or more of the CNN parameter set; repeating steps h-j until the second stop criterion is met; presenting positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data to the CNN; classifying the CNN according to the polypeptide-MHC-I interaction CNN parameter set for the MHC allele as positive or negative; and determining the classification accuracy by means of the polypeptide-MHC-I interaction CNN for the MHC allele, wherein when (if) the classification accuracy satisfies the third stopping criterion, outputting the GAN and CNN, wherein when (if) the classification accuracy does not satisfy the third stopping criterion, return to step a.

Вариант осуществления 53. Способ по варианту осуществления 52, где параметры GAN включают одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.Embodiment 53. The method of Embodiment 52, wherein the GAN parameters include one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

Вариант осуществления 54. Способ по варианту осуществления 52, где аллель MHC представляет собой аллель HLA.Embodiment 54. The method of Embodiment 52 wherein the MHC allele is an HLA allele.

Вариант осуществления 55. Способ по варианту осуществления 54, где тип аллеля HLA включает один или более из HLA-A, HLA-B, HLA-C или их подтип. Embodiment 55. The method of Embodiment 54, wherein the HLA allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

Вариант осуществления 56. Способ по варианту осуществления 54, где длина аллеля HLA составляет от приблизительно 8 до приблизительно 12 аминокислот.Embodiment 56. The method of Embodiment 54 wherein the HLA allele length is from about 8 to about 12 amino acids.

Вариант осуществления 57. Способ по варианту осуществления 54, где длина аллеля HLA составляет от приблизительно 9 до приблизительно 11 аминокислот.Embodiment 57. The method of Embodiment 54 wherein the HLA allele length is from about 9 to about 11 amino acids.

Вариант осуществления 58. Способ по варианту осуществления 52, дополнительно предусматривающий: представление набора данных в CNN, где набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I; классификацию посредством CNN каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и синтез полипептида из кандидатного взаимодействия полипептид-MHC-I, классифицируемого как положительное взаимодействие полипептид-MHC-I.Embodiment 58. The method of Embodiment 52, further comprising: presenting a data set to a CNN, where the data set contains a plurality of candidate polypeptide-MHC-I interactions; classifying by CNN each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and synthesizing a polypeptide from a candidate polypeptide-MHC-I interaction classified as a positive polypeptide-MHC-I interaction.

Вариант осуществления 59. Полипептид, полученный посредством способа по варианту осуществления 58. Embodiment 59 A polypeptide obtained by the method of Embodiment 58.

Вариант осуществления 60. Способ по варианту осуществления 58, где полипептид представляет собой опухолеспецифический антиген.Embodiment 60. The method of Embodiment 58, wherein the polypeptide is a tumor-specific antigen.

Вариант осуществления 61. Способ по варианту осуществления 58, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем лейкоцитарного антигена человека (HLA).Embodiment 61. The method of Embodiment 58, wherein the polypeptide comprises an amino acid sequence that specifically binds to the MHC-I protein encoded by the selected human leukocyte antigen (HLA) allele.

Вариант осуществления 62. Способ по варианту осуществления 52, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем. Embodiment 62. The method of Embodiment 52, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with the selected allele.

Вариант осуществления 63. Способ по варианту осуществления 62, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций. Embodiment 63. The method of Embodiment 62, wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705, and combinations thereof.

Вариант осуществления 64. Способ по варианту осуществления 52, где повторение стадий a-d до тех пор, пока не будет соблюден первый критерий останова, предусматривает оценку выражения градиентного спуска для генератора GAN.Embodiment 64. The method of Embodiment 52, wherein repeating steps a-d until the first stopping criterion is met, evaluates the gradient descent expression for the GAN generator.

Вариант осуществления 65. Способ по варианту осуществления 52, где повторение стадий a-d до тех пор, пока не будет соблюден первый критерий останова, предусматривает: итеративное выполнение (например, оптимизацию) дискриминатора GAN для увеличения возможности присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I, низкой вероятности положительным смоделированным данным взаимодействия полипептид-MHC-I и низкой вероятности отрицательным реальным данным взаимодействия полипептид-MHC-I; и итеративное выполнение (например, оптимизацию) генератора GAN для увеличения вероятности того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.Embodiment 65. The method of Embodiment 52 wherein repeating steps a-d until the first stop criterion is met comprises: iteratively executing (e.g., optimizing) the GAN discriminator to increase the ability to assign a high probability to positive real polypeptide-MHC interaction data -I, low probability of positive simulated polypeptide-MHC-I interaction data and low probability of negative real polypeptide-MHC-I interaction data; and iteratively performing (eg, optimizing) the GAN generator to increase the likelihood that positive simulated polypeptide-MHC-I interaction data will score high.

Вариант осуществления 66. Способ по варианту осуществления 52, где представление в CNN данных для обучения в CNN предусматривает: выполнение процедуры свертки, выполнение процедуры нелинейности (например, ReLu), выполнение процедуры объединения или субдискретизации и выполнение процедуры классификации (например, полносвязный слой).Embodiment 66. The method of Embodiment 52, wherein the CNN's representation of data for training in the CNN includes: performing a convolution procedure, performing a non-linearity procedure (e.g., ReLu), performing a pooling or downsampling procedure, and performing a classification procedure (e.g., fully connected layer).

Вариант осуществления 67. Способ по варианту осуществления 52, где GAN включает глубокую сверточную GAN (DCGAN).Embodiment 67. The method of Embodiment 52, wherein the GAN includes a deep convolutional GAN (DCGAN).

Вариант осуществления 68. Способ по варианту осуществления 52, где первый критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 68. The method of Embodiment 52, wherein the first stopping criterion includes an estimate of a Mean Square Error (MSE) function.

Вариант осуществления 69. Способ по варианту осуществления 52, где второй критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 69. The method of Embodiment 52, wherein the second stopping criterion includes an estimate of a Mean Square Error (MSE) function.

Вариант осуществления 70. Способ по варианту осуществления 52, где третий критерий останова включает оценку функции площади под кривой (AUC).Embodiment 70. The method of Embodiment 52, wherein the third stopping criterion includes an estimate of an area under the curve (AUC) function.

Вариант осуществления 71. Способ, предусматривающий: обучение сверточной нейронной сети (CNN) в соответствии со способом по варианту осуществления 1; представление набора данных в CNN, где набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I; классификацию посредством CNN каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и синтез полипептида, связанного с кандидатным взаимодействием полипептид-MHC-I, классифицируемым как положительное взаимодействие полипептид-MHC-I.Embodiment 71. A method comprising: training a convolutional neural network (CNN) according to the method of Embodiment 1; representing a dataset in a CNN, where the dataset contains a plurality of candidate polypeptide-MHC-I interactions; classifying by CNN each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and synthesizing a polypeptide associated with a candidate polypeptide-MHC-I interaction classified as a positive polypeptide-MHC-I interaction.

Вариант осуществления 72. Способ по варианту осуществления 71, где CNN подвергают обучению на основании одного или более параметров GAN, включающих одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.Embodiment 72. The method of Embodiment 71, wherein the CNN is trained based on one or more GAN parameters including one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

Вариант осуществления 73. Способ по варианту осуществления 72, где тип аллеля представляет собой тип аллеля HLA.Embodiment 73. The method of Embodiment 72, wherein the allele type is the HLA allele type.

Вариант осуществления 74. Способ по варианту осуществления 73, где тип аллеля HLA включает один или более из HLA-A, HLA-B, HLA-C или их подтип. Embodiment 74. The method of Embodiment 73, wherein the HLA allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

Вариант осуществления 75. Способ по варианту осуществления 73, где длина аллеля HLA составляет от приблизительно 8 до приблизительно 12 аминокислот.Embodiment 75. The method of Embodiment 73 wherein the HLA allele length is from about 8 to about 12 amino acids.

Вариант осуществления 76. Способ по варианту осуществления 73, где длина аллеля HLA составляет от приблизительно 9 до приблизительно 11 аминокислот.Embodiment 76. The method of Embodiment 73, wherein the HLA allele length is from about 9 to about 11 amino acids.

Вариант осуществления 77. Полипептид, полученный посредством способа по варианту осуществления 71. Embodiment 77 A polypeptide obtained by the method of Embodiment 71.

Вариант осуществления 78. Способ по варианту осуществления 71, где полипептид представляет собой опухолеспецифический антиген.Embodiment 78. The method of Embodiment 71 wherein the polypeptide is a tumor specific antigen.

Вариант осуществления 79. Способ по варианту осуществления 71, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем лейкоцитарного антигена человека (HLA).Embodiment 79. The method of Embodiment 71, wherein the polypeptide comprises an amino acid sequence that specifically binds to the MHC-I protein encoded by the selected human leukocyte antigen (HLA) allele.

Вариант осуществления 80. Способ по варианту осуществления 71, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем. Embodiment 80. The method of Embodiment 71, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with the selected allele.

Вариант осуществления 81. Способ по варианту осуществления 80, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций. Embodiment 81. The method of Embodiment 80, wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705, and combinations thereof.

Вариант осуществления 82. Способ по варианту осуществления 71, где GAN включает глубокую сверточную GAN (DCGAN).Embodiment 82. The method of Embodiment 71, wherein the GAN includes a deep convolutional GAN (DCGAN).

Вариант осуществления 83. Устройство для обучения генеративно-состязательной сети (GAN), содержащее: один или более процессоров; и запоминающее устройство, в котором хранятся исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: генерирования все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные; представления положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные; представления положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействии полипептид-MHC-I в CNN для генерирования оценок прогноза; определения на основании оценок прогноза того, что GAN обучена; и выведения GAN и CNN.Embodiment 83. A device for training a generative adversarial network (GAN), comprising: one or more processors; and a memory that stores processor-executable instructions that, when executed by one or more processors, cause the device to: generate increasingly accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated polypeptide interaction data. -MHC-I as positive; presenting positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data to a convolutional neural network (CNN) until the CNN classifies the polypeptide-MHC interaction data -I as positive or negative; presenting positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data to the CNN to generate predictive scores; determining, based on prediction estimates, that the GAN is trained; and derivation of GAN and CNN.

Вариант осуществления 84. Устройство по варианту осуществления 83, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают генерирование устройством все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: генерирования в соответствии с набором параметров GAN первого смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединения первого смоделированного набора данных положительных реальных взаимодействий полипептид-MHC-I для аллеля MHC и отрицательных реальных взаимодействия полипептид-MHC-I для аллеля MHC для создания набора данных для обучения GAN; получения информации от дискриминатора, при этом дискриминатор выполнен с возможностью определения, в соответствии с решающей границей, является ли положительное взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN положительным или отрицательным; корректировки, основанной на точности информации от дискриминатора, одного или более из набора параметров GAN или решающей границы; и повторения стадий a-d до тех пор, пока не будет соблюден первый критерий останова.Embodiment 84. The apparatus of Embodiment 83, wherein processor-executable instructions that, when executed by one or more processors, cause the device to generate increasingly accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated interaction data polypeptide-MHC-I as positive, further provide processor-executable instructions that, when executed by one or more processors, cause the device to do the following: generate, in accordance with the GAN parameter set, a first simulated data set containing simulated positive polypeptide-MHC-I interactions for the MHC allele ; combining the first simulated dataset of positive real interactions polypeptide-MHC-I for the MHC allele and negative real interactions polypeptide-MHC-I for the MHC allele to create a GAN training dataset; obtaining information from the discriminator, the discriminator being configured to determine, according to a decision boundary, whether a positive interaction of the polypeptide-MHC-I for the MHC allele in the GAN training data set is positive or negative; an adjustment based on the accuracy of the information from the discriminator, one or more of the GAN parameter set, or the decision boundary; and repeating steps a-d until the first stop criterion is met.

Вариант осуществления 85. Устройство по варианту осуществления 84, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление устройством положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: генерирования в соответствии с набором параметров GAN второго смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединения второго смоделированного набора данных, положительных реальных взаимодействий полипептид-MHC-I для аллеля MHC и отрицательных реальных данных взаимодействия полипептид-MHC-I для аллеля MHC для создания набора данных для обучения CNN; представление набора данных для обучения CNN в сверточную нейронную сеть (CNN); получения информации для обучения от CNN, при этом CNN выполнена с возможностью определения информации для обучения путем классификации в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN как положительного или отрицательного; корректировки, основанной на точности информации для обучения, одного или более из набора параметров CNN; и повторения стадий h-j до тех пор, пока не будет соблюден второй критерий останова.Embodiment 85. The apparatus of Embodiment 84, wherein processor-executable instructions that, when executed by one or more processors, cause the device to present positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide interaction data -MHC-I to a Convolutional Neural Network (CNN) until the CNN classifies the polypeptide-MHC-I interaction data as positive or negative, further provide processor-executable instructions that, when executed by one or more processors, cause the device to do the following: in accordance with the GAN parameter set of the second simulated dataset containing the simulated positive interactions of the polypeptide-MHC-I for the MHC allele; combining a second simulated dataset, positive real-life polypeptide-MHC-I interactions for the MHC allele, and negative real-world polypeptide-MHC-I interaction data for the MHC allele to create a CNN training dataset; representing a CNN training dataset into a convolutional neural network (CNN); obtaining training information from the CNN, the CNN being configured to determine the training information by classifying according to the polypeptide-MHC-I interaction parameter set of the CNN for the MHC allele in the training data set of the CNN as positive or negative; adjusting, based on the accuracy of the training information, one or more of the set of CNN parameters; and repeating steps h-j until the second stop criterion is met.

Вариант осуществления 86. Устройство по варианту осуществления 85, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление устройством положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в CNN для генерирования оценок прогноза, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают классификацию устройством в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного. Embodiment 86. The apparatus of Embodiment 85, wherein processor-executable instructions that, when executed by one or more processors, cause the device to present positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data in a CNN to generate predictive estimates , further provide processor-executable instructions that, when executed by one or more processors, cause the device to classify, according to a set of polypeptide-MHC-I interaction parameters, for an MHC allele as positive or negative.

Вариант осуществления 87. Устройство по варианту осуществления 86, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение устройством на основании оценок прогноза того, обучена ли GAN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение устройством точности классификации взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного и, когда (если) точность классификации удовлетворяет третьему критерию останова, выведение GAN и CNN. Embodiment 87. The apparatus of Embodiment 86, wherein processor-executable instructions that, when executed by one or more processors, cause the device to determine, based on prediction estimates, whether the GAN has been trained, further provides processor-executable instructions that, when executed by one or more processors, determine a polypeptide-MHC-I interaction classification accuracy device for the MHC allele as positive or negative, and when (if) the classification accuracy satisfies the third stopping criterion, inferring GANs and CNNs.

Вариант осуществления 88. Устройство по варианту осуществления 86, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение устройством на основании оценок прогноза того, обучена ли GAN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение устройством точности классификации взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного и, когда (если) точность классификации не удовлетворяет третьему критерию останова, возвращение к стадии а.Embodiment 88. The apparatus of Embodiment 86, wherein processor-executable instructions that, when executed by one or more processors, cause the device to determine, based on prediction estimates, whether the GAN has been trained, further provides processor-executable instructions that, when executed by one or more processors, determine a polypeptide-MHC-I interaction classification accuracy device for the MHC allele as positive or negative, and when (if) the classification accuracy does not satisfy the third stopping criterion, return to step a.

Вариант осуществления 89. Устройство по варианту осуществления 84, где параметры GAN включают одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.Embodiment 89. The apparatus of embodiment 84, wherein the GAN parameters include one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

Вариант осуществления 90. Устройство по варианту осуществления 89, где тип аллеля HLA включает один или более из HLA-A, HLA-B, HLA-C или их подтип. Embodiment 90. The device of Embodiment 89, wherein the HLA allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

Вариант осуществления 91. Устройство по варианту осуществления 89, где длина аллеля HLA составляет от приблизительно 8 до приблизительно 12 аминокислот.Embodiment 91. The device of Embodiment 89, wherein the HLA allele length is from about 8 to about 12 amino acids.

Вариант осуществления 92. Устройство по варианту осуществления 89, где длина аллеля HLA составляет от приблизительно 9 до приблизительно 11 аминокислот.Embodiment 92. The device of Embodiment 89, wherein the HLA allele length is from about 9 to about 11 amino acids.

Вариант осуществления 93. Устройство по варианту осуществления 83, где исполняемые процессором команды при исполнении одним или более процессорами дополнительно обеспечивают выполнение устройством следующего: представление набора данных в CNN, при этом набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I, при этом CNN дополнительно выполнена с возможностью классификации каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и синтез полипептида из кандидатного взаимодействия полипептид-MHC-I, которое CNN классифицирует как положительное взаимодействие полипептид-MHC-I.Embodiment 93. The apparatus of Embodiment 83, wherein the processor-executable instructions, when executed by one or more processors, further cause the apparatus to perform the following: present a dataset in a CNN, wherein the dataset contains a plurality of candidate polypeptide-MHC-I interactions, wherein the CNN further configured to classify each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and synthesizing a polypeptide from a candidate polypeptide-MHC-I interaction that CNN classifies as a positive polypeptide-MHC-I interaction.

Вариант осуществления 94. Полипептид, полученный при помощи устройства по варианту осуществления 93. Embodiment 94 A polypeptide produced using the device of Embodiment 93.

Вариант осуществления 95. Устройство по варианту осуществления 93, где полипептид представляет собой опухолеспецифический антиген.Embodiment 95. The device of Embodiment 93, wherein the polypeptide is a tumor-specific antigen.

Вариант осуществления 96. Устройство по варианту осуществления 93, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем лейкоцитарного антигена человека (HLA).Embodiment 96. The device of Embodiment 93, wherein the polypeptide comprises an amino acid sequence that specifically binds to the MHC-I protein encoded by the selected human leukocyte antigen (HLA) allele.

Вариант осуществления 97. Устройство по варианту осуществления 83, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем. Embodiment 97. The device of embodiment 83, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with a selected allele.

Вариант осуществления 98. Устройство по варианту осуществления 97, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций. Embodiment 98. The device of Embodiment 97 wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705, and combinations thereof.

Вариант осуществления 99. Устройство по варианту осуществления 83, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают генерирование устройством все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают оценивание устройством выражения градиентного спуска для генератора GAN.Embodiment 99. The apparatus of Embodiment 83, wherein processor-executable instructions that, when executed by one or more processors, cause the device to generate progressively more accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated interaction data polypeptide-MHC-I as positive further provide processor-executable instructions that, when executed by one or more processors, cause the device to evaluate the gradient descent expression for the GAN generator.

Вариант осуществления 100. Устройство по варианту осуществления 83, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают генерирование устройством все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: итеративное выполнение (например, оптимизацию) дискриминатора GAN для увеличения возможности присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I, низкой вероятности положительным смоделированным данным взаимодействия полипептид-MHC-I и низкой вероятности отрицательных смоделированных данных взаимодействия полипептид-MHC-I; и итеративное выполнение (например, оптимизацию) генератора GAN для увеличения возможности того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.Embodiment 100. The apparatus of embodiment 83, wherein processor-executable instructions that, when executed by one or more processors, cause the device to generate progressively more accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated interaction data polypeptide-MHC-I as positive further provide processor-executable instructions that, when executed by one or more processors, cause the device to perform the following: iteratively executes (e.g., optimizes) the GAN discriminator to increase the ability to assign a high probability to positive real-life polypeptide-MHC-I interaction data , low probability of positive simulated polypeptide-MHC-I interaction data and low probability of negative simulated polypeptide-MHC-I interaction data; and iteratively performing (eg, optimizing) the GAN generator to increase the possibility that positive simulated polypeptide-MHC-I interaction data will be highly valued.

Вариант осуществления 101. Устройство по варианту осуществления 83, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление устройством положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: выполнения процедуры свертки;Embodiment 101. The apparatus of Embodiment 83, wherein processor-executable instructions that, when executed by one or more processors, cause the device to present positive simulated polypeptide-MHC-I interaction data, positive real-world polypeptide-MHC-I interaction data, and negative real-world polypeptide interaction data -MHC-I to a Convolutional Neural Network (CNN) until the CNN classifies the polypeptide-MHC-I interaction data as positive or negative, further provide processor-executable instructions that, when executed by one or more processors, cause the device to do the following: convolution procedures;

выполнения процедуры нелинейности (например, ReLu), выполнения процедуры объединения или субдискретизации и выполнения процедуры классификации (полносвязный слой).performing a non-linearity procedure (eg, ReLu), performing a pooling or subsampling procedure, and performing a classification procedure (fully connected layer).

Вариант осуществления 102. Устройство по варианту осуществления 83, где GAN включает глубокую сверточную GAN (DCGAN).Embodiment 102. The apparatus of Embodiment 83, wherein the GAN includes a Deep Convolutional GAN (DCGAN).

Вариант осуществления 103. Устройство по варианту осуществления 84, где первый критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 103. The apparatus of embodiment 84, wherein the first stop criterion includes an estimate of a Mean Square Error (MSE) function.

Вариант осуществления 104. Устройство по варианту осуществления 85, где второй критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 104. The apparatus of embodiment 85, wherein the second stop criterion includes an estimate of a Mean Square Error (MSE) function.

Вариант осуществления 105. Устройство по варианту осуществления 87 или 88, где третий критерий останова включает оценку функции площади под кривой (AUC).Embodiment 105. The apparatus of embodiment 87 or 88, wherein the third stopping criterion includes an estimate of the area under the curve (AUC) function.

Вариант осуществления 106. Устройство по варианту осуществления 83, где оценка прогноза представляет собой вероятность того, что положительные реальные данные взаимодействия полипептид-MHC-I классифицированы как положительные данные взаимодействия полипептид-MHC-I.Embodiment 106. The apparatus of embodiment 83, wherein the prediction score is the probability that positive real polypeptide-MHC-I interaction data is classified as positive polypeptide-MHC-I interaction data.

Вариант осуществления 107. Устройство по варианту осуществления 83, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение устройством на основании оценок прогноза того, обучена ли GAN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают сравнение устройством одной или более оценок прогноза с пороговым значением.Embodiment 107. The apparatus of Embodiment 83, wherein processor-executable instructions that, when executed by one or more processors, cause the device to determine, based on prediction estimates, whether the GAN has been trained, further provides processor-executable instructions that, when executed by one or more processors, provide a comparison a device of one or more threshold prediction estimates.

Вариант осуществления 108. Устройство для обучения генеративно-состязательной сети (GAN), содержащее:Embodiment 108. A device for training a generative adversarial network (GAN), comprising:

один или более процессоров иone or more processors and

запоминающее устройство, в котором хранятся исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: генерирования все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные; представления положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные; представления положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействии полипептид-MHC-I в CNN для генерирования оценок прогноза; определения на основании оценок прогноза того, что GAN не обучена; повторения стадий а-с до тех пор, пока не будет выполнено определение на основании оценок прогноза того, что GAN обучена; и выведения GAN и CNN.a storage device that stores processor-executable instructions that, when executed by one or more processors, cause the device to do the following: generate increasingly accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated polypeptide-MHC-I interaction data MHC-I as positive; presenting positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data to a convolutional neural network (CNN) until the CNN classifies the polypeptide-MHC interaction data -I as positive or negative; presenting positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data to the CNN to generate predictive scores; determining, based on the prediction estimates, that the GAN is not trained; repeating steps a-c until a determination is made based on prediction estimates that the GAN has been trained; and derivation of GAN and CNN.

Вариант осуществления 109. Устройство по варианту осуществления 108, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают генерирование устройством все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: генерирования в соответствии с набором параметров GAN первого смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединения первого смоделированного набора данных с положительными реальными взаимодействиями полипептид-MHC-I для аллеля MHC и положительными реальными взаимодействиями полипептид-MHC-I для аллеля MHC для создания набора данных для обучения GAN; получения информации от дискриминатора, при этом дискриминатор выполнен с возможностью определения того, является ли положительное взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN положительным или отрицательным; корректировки, основанной на точности информации от дискриминатора, одного или более из набора параметров GAN или решающей границы; и повторения стадий i-j до тех пор, пока не будет соблюден первый критерий останова.Embodiment 109. The apparatus of embodiment 108, wherein processor-executable instructions that, when executed by one or more processors, cause the device to generate increasingly accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated interaction data polypeptide-MHC-I as positive, further provide processor-executable instructions that, when executed by one or more processors, cause the device to do the following: generate, in accordance with the GAN parameter set, a first simulated data set containing simulated positive polypeptide-MHC-I interactions for the MHC allele ; combining the first simulated data set with positive real polypeptide-MHC-I interactions for the MHC allele and positive real polypeptide-MHC-I interactions for the MHC allele to create a GAN training data set; obtaining information from the discriminator, the discriminator being configured to determine whether a positive interaction of the polypeptide-MHC-I for the MHC allele in the GAN training data set is positive or negative; an adjustment based on the accuracy of the information from the discriminator, one or more of the GAN parameter set, or the decision boundary; and repeating steps i-j until the first stop criterion is met.

Вариант осуществления 110. Устройство по варианту осуществления 109, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление устройством положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: генерирования в соответствии с набором параметров GAN второго смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединения второго смоделированного набора данных, положительных реальных взаимодействий полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I для создания набора данных для обучения CNN; представления набора данных для обучения CNN в сверточную нейронную сеть (CNN); получения информации от CNN, при этом CNN выполнена с возможностью определения информации путем классификации в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN как положительного или отрицательного; корректировки, основанной на точности информации для обучения от CNN, одного или более из набора параметров CNN; и повторения стадий n-p до тех пор, пока не будет соблюден второй критерий останова.Embodiment 110. The apparatus of embodiment 109, wherein processor-executable instructions that, when executed by one or more processors, cause the device to present positive simulated polypeptide-MHC-I interaction data, positive real-world polypeptide-MHC-I interaction data, and negative real-world polypeptide interaction data -MHC-I to a Convolutional Neural Network (CNN) until the CNN classifies the polypeptide-MHC-I interaction data as positive or negative, further provide processor-executable instructions that, when executed by one or more processors, cause the device to do the following: in accordance with the GAN parameter set of the second simulated dataset containing the simulated positive interactions of the polypeptide-MHC-I for the MHC allele; combining the second simulated dataset, positive real polypeptide-MHC-I interactions, and negative real polypeptide-MHC-I interaction data to create a CNN training dataset; representing a dataset for training a CNN into a convolutional neural network (CNN); obtaining information from the CNN, wherein the CNN is configured to determine the information by classifying according to a set of polypeptide-MHC-I interaction parameters of the CNN for the MHC allele in the CNN training dataset as positive or negative; an adjustment based on the accuracy of the training information from the CNN, one or more of the set of CNN parameters; and repeating steps n-p until the second stopping criterion is met.

Вариант осуществления 111. Устройство по варианту осуществления 110, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление устройством положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в CNN для генерирования оценок прогноза, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление устройством в CNN положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I, где CNN дополнительно выполнена с возможностью классификации в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного. Embodiment 111. The apparatus of embodiment 110, wherein processor-executable instructions that, when executed by one or more processors, cause the device to present positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data in a CNN to generate predictive estimates , further provide processor-executable instructions that, when executed by one or more processors, cause the device to present positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data to the CNN, wherein the CNN is further configured to be classified according to a set polypeptide-MHC-I interaction CNN parameters for the MHC allele as positive or negative.

Вариант осуществления 112. Устройство по варианту осуществления 111, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение устройством на основании оценок прогноза того, обучена ли GAN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: определения точности классификации посредством CNN; определения того, что точность классификации удовлетворяет третьему критерию останова; и в ответ на определение того, что точность классификации удовлетворяет третьему критерию останова, выведения GAN и CNN.Embodiment 112. The apparatus of embodiment 111, wherein processor-executable instructions that, when executed by one or more processors, cause the device to determine, based on prediction estimates, whether the GAN has been trained, further provides processor-executable instructions that, when executed by one or more processors, cause the device to execute the device of the following: determining the accuracy of classification by means of CNN; determining that the classification accuracy satisfies the third stopping criterion; and in response to determining that the classification accuracy satisfies the third stopping criterion, deriving the GAN and CNN.

Вариант осуществления 113. Устройство по варианту осуществления 112, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение устройством на основании оценок прогноза того, обучена ли GAN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: определения точности классификации посредством CNN; определения того, что точность классификации не удовлетворяет третьему критерию останова; и в ответ на определение того, что точность классификации не удовлетворяет третьему критерию останова, возвращения к стадии а.Embodiment 113. The apparatus of embodiment 112, wherein processor-executable instructions that, when executed by one or more processors, cause the device to determine, based on prediction estimates, whether the GAN has been trained, further provides processor-executable instructions that, when executed by one or more processors, cause the device to execute the device of the following: determining the accuracy of classification by means of CNN; determining that the classification accuracy does not satisfy the third stopping criterion; and in response to determining that the classification accuracy does not satisfy the third stopping criterion, returning to step a.

Вариант осуществления 114. Устройство по варианту осуществления 109, где параметры GAN включают одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.Embodiment 114. The apparatus of embodiment 109, wherein the GAN parameters include one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

Вариант осуществления 115. Устройство по варианту осуществления 109, где аллель MHC представляет собой аллель HLA.Embodiment 115. The device of embodiment 109, wherein the MHC allele is an HLA allele.

Вариант осуществления 116. Устройство по варианту осуществления 115, где тип аллеля HLA включает один или более из HLA-A, HLA-B, HLA-C или их подтип. Embodiment 116. The device of embodiment 115, wherein the HLA allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

Вариант осуществления 117. Устройство по варианту осуществления 115, где длина аллеля HLA составляет от приблизительно 8 до приблизительно 12 аминокислот.Embodiment 117. The device of embodiment 115, wherein the HLA allele length is from about 8 to about 12 amino acids.

Вариант осуществления 118. Устройство по варианту осуществления 115, где длина аллеля HLA составляет от приблизительно 9 до приблизительно 11 аминокислот.Embodiment 118. The device of embodiment 115, wherein the HLA allele length is from about 9 to about 11 amino acids.

Вариант осуществления 119. Устройство по варианту осуществления 108, где исполняемые процессором команды при исполнении одним или более процессорами дополнительно обеспечивают выполнение устройством следующего: представления набора данных в CNN, при этом набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I, при этом CNN дополнительно выполнена с возможностью классификации каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и синтеза полипептида из кандидатного взаимодействия полипептид-MHC-I, классифицируемого посредством CNN как положительное взаимодействие полипептид-MHC-I.Embodiment 119. The apparatus of embodiment 108, wherein the processor-executable instructions, when executed by one or more processors, further cause the apparatus to: present a dataset in a CNN, wherein the dataset contains a plurality of candidate polypeptide-MHC-I interactions, wherein the CNN further configured to classify each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and synthesizing a polypeptide from a candidate polypeptide-MHC-I interaction classified by the CNN as a positive polypeptide-MHC-I interaction.

Вариант осуществления 120. Полипептид, полученный при помощи устройства по варианту осуществления 119. Embodiment 120. Polypeptide produced using the device of Embodiment 119.

Вариант осуществления 121. Устройство по варианту осуществления 119, где полипептид представляет собой опухолеспецифический антиген.Embodiment 121. The device of Embodiment 119, wherein the polypeptide is a tumor-specific antigen.

Вариант осуществления 122. Устройство по варианту осуществления 119, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем лейкоцитарного антигена человека (HLA).Embodiment 122. The device of embodiment 119, wherein the polypeptide comprises an amino acid sequence that specifically binds to the MHC-I protein encoded by the selected human leukocyte antigen (HLA) allele.

Вариант осуществления 123. Устройство по варианту осуществления 108, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем. Embodiment 123. The device of embodiment 108, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with a selected allele.

Вариант осуществления 124. Устройство по варианту осуществления 123, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций. Embodiment 124. The device of embodiment 123 wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705, and combinations thereof.

Вариант осуществления 125. Устройство по варианту осуществления 108, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают генерирование устройством все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают оценивание устройством выражения градиентного спуска для генератора GAN.Embodiment 125. The apparatus of embodiment 108, wherein processor-executable instructions that, when executed by one or more processors, cause the device to generate progressively more accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated interaction data polypeptide-MHC-I as positive further provide processor-executable instructions that, when executed by one or more processors, cause the device to evaluate the gradient descent expression for the GAN generator.

Вариант осуществления 126. Устройство по варианту осуществления 108, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают генерирование устройством все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: итеративного выполнения (например, оптимизации) дискриминатора GAN для увеличения возможности присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I, низкой вероятности положительным смоделированным данным взаимодействия полипептид-MHC-I и низкой вероятности отрицательных смоделированных данных взаимодействия полипептид-MHC-I; и итеративного выполнения (например, оптимизации) генератора GAN для увеличения возможности того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.Embodiment 126. The apparatus of embodiment 108, wherein processor-executable instructions that, when executed by one or more processors, cause the device to generate increasingly accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated interaction data polypeptide-MHC-I as positive further provide processor-executable instructions that, when executed by one or more processors, cause the device to perform the following: , low probability of positive simulated polypeptide-MHC-I interaction data and low probability of negative simulated polypeptide-MHC-I interaction data; and iteratively performing (eg, optimizing) the GAN generator to increase the possibility that positive simulated polypeptide-MHC-I interaction data will be highly valued.

Вариант осуществления 127. Устройство по варианту осуществления 108, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление устройством положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: выполнения процедуры свертки; выполнения процедуры нелинейности (например, ReLu), выполнения процедуры объединения или субдискретизации; и выполнения процедуры классификации (полносвязный слой).Embodiment 127. The apparatus of embodiment 108, wherein processor-executable instructions that, when executed by one or more processors, cause the device to present positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide interaction data -MHC-I to a Convolutional Neural Network (CNN) until the CNN classifies the polypeptide-MHC-I interaction data as positive or negative, further provide processor-executable instructions that, when executed by one or more processors, cause the device to do the following: convolution procedures; performing a non-linearity procedure (eg, ReLu), performing a pooling or subsampling procedure; and performing a classification procedure (fully connected layer).

Вариант осуществления 128. Устройство по варианту осуществления 108, где GAN включает глубокую сверточную GAN (DCGAN).Embodiment 128. The apparatus of embodiment 108, wherein the GAN includes a deep convolutional GAN (DCGAN).

Вариант осуществления 129. Устройство по варианту осуществления 109, где первый критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 129. The apparatus of embodiment 109, wherein the first stop criterion includes an estimate of a Mean Square Error (MSE) function.

Вариант осуществления 130. Устройство по варианту осуществления 108, где второй критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 130. The apparatus of embodiment 108, wherein the second stop criterion includes an estimate of a Mean Square Error (MSE) function.

Вариант осуществления 131. Устройство по варианту осуществления 112 или 113, где третий критерий останова включает оценку функции площади под кривой (AUC).Embodiment 131. The apparatus of embodiment 112 or 113, wherein the third stopping criterion includes an estimate of an area under the curve (AUC) function.

Вариант осуществления 132. Устройство по варианту осуществления 108, где оценка прогноза представляет собой вероятность того, что положительные реальные данные взаимодействия полипептид-MHC-I классифицированы как положительные данные взаимодействия полипептид-MHC-I.Embodiment 132. The apparatus of embodiment 108, wherein the predictive score is the probability that positive real polypeptide-MHC-I interaction data is classified as positive polypeptide-MHC-I interaction data.

Вариант осуществления 133. Устройство по варианту осуществления 108, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение устройством на основании оценок прогноза того, обучена ли GAN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают сравнение устройством одной или более оценок прогноза с пороговым значением.Embodiment 133. The apparatus of embodiment 108, wherein processor-executable instructions that, when executed by one or more processors, cause the device to determine, based on prediction estimates, whether the GAN has been trained, further provides processor-executable instructions that, when executed by one or more processors, provide a comparison a device of one or more threshold prediction estimates.

Вариант осуществления 134. Устройство для обучения генеративно-состязательной сети (GAN), содержащее: один или более процессоров; и запоминающее устройство, в котором хранятся исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: генерирования в соответствии с набором параметров GAN первого смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединения первого смоделированного набора данных с положительными реальными взаимодействиями полипептид-MHC-I для аллеля MHC и отрицательными реальными взаимодействиями полипептид-MHC-I для аллеля MHC для создания набора данных для обучения GAN; получения информации от дискриминатора, при этом дискриминатор выполнен с возможностью определения, в соответствии с решающей границей, является ли положительное взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN положительным или отрицательным; корректировки, основанной на точности информации от дискриминатора, одного или более из набора параметров GAN или решающей границы;Embodiment 134. A device for training a generative adversarial network (GAN), comprising: one or more processors; and a memory that stores processor-executable instructions that, when executed by one or more processors, cause the device to: generate, in accordance with the GAN parameter set, a first simulated data set containing simulated positive interactions of the polypeptide-MHC-I for the MHC allele; combining the first simulated dataset with positive real polypeptide-MHC-I interactions for the MHC allele and negative real polypeptide-MHC-I interactions for the MHC allele to create a GAN training dataset; obtaining information from the discriminator, the discriminator being configured to determine, according to a decision boundary, whether a positive interaction of the polypeptide-MHC-I for the MHC allele in the GAN training data set is positive or negative; an adjustment based on the accuracy of the information from the discriminator, one or more of the GAN parameter set, or the decision boundary;

повторения стадий a-d до тех пор, пока не будет соблюден первый критерий останова; генерирования с помощью генератора GAN в соответствии с набором параметров GAN второго смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединения второго смоделированного набора данных, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I для аллеля MHC для создания набора данных для обучения CNN; представления набора данных для обучения CNN в сверточную нейронную сеть (CNN); получения информации для обучения от CNN, где CNN выполнена с возможностью определения информации для обучения путем классификации в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN как положительного или отрицательного; корректировки, основанной на точности информации для обучения, одного или более из набора параметров CNN; повторения стадий h-j до тех пор, пока не будет соблюден второй критерий останова; представления в CNN положительных реальных взаимодействий полипептид-MHC-I для аллеля MHC и отрицательных реальных взаимодействий полипептид-MHC-I для аллеля MHC; получения информации для обучения от CNN, где CNN выполнена с возможностью определения обучающей информации путем классификации в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного; и определения точности информации для обучения, при этом, когда (если) точность информации для обучения удовлетворяет третьему критерию останова, выведения GAN и CNN, при этом, когда (если) точность информации для обучения не удовлетворяет третьему критерию останова, возвращения к стадии а.repeating steps a-d until the first stop criterion is met; using the GAN generator, according to the GAN parameter set, generating a second simulated dataset containing simulated positive polypeptide-MHC-I interactions for the MHC allele; combining the second simulated data set, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data for the MHC allele to create a CNN training data set; representing a dataset for training a CNN into a convolutional neural network (CNN); obtaining training information from the CNN, wherein the CNN is configured to determine the training information by classifying according to the polypeptide-MHC-I interaction parameter set of the CNN for the MHC allele in the training data set of the CNN as positive or negative; adjusting, based on the accuracy of the training information, one or more of the set of CNN parameters; repeating steps h-j until the second stop criterion is met; presentation in the CNN of positive real interactions polypeptide-MHC-I for the MHC allele and negative real interactions polypeptide-MHC-I for the MHC allele; obtaining information for training from the CNN, where the CNN is configured to determine the training information by classifying according to a set of CNN interaction parameters of the polypeptide-MHC-I for the MHC allele as positive or negative; and determining the accuracy of the training information, wherein when (if) the accuracy of the training information satisfies the third stopping criterion, deriving the GAN and CNN, and when (if) the accuracy of the training information does not satisfy the third stopping criterion, returning to step a.

Вариант осуществления 135. Устройство по варианту осуществления 134, где параметры GAN включают одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.Embodiment 135. The apparatus of embodiment 134, wherein the GAN parameters include one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

Вариант осуществления 136. Устройство по варианту осуществления 134, где аллель MHC представляет собой аллель HLA.Embodiment 136. The device of embodiment 134, wherein the MHC allele is an HLA allele.

Вариант осуществления 137. Устройство по варианту осуществления 136, где тип аллеля HLA включает один или более из HLA-A, HLA-B, HLA-C или их подтип. Embodiment 137. The device of embodiment 136 wherein the HLA allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

Вариант осуществления 138. Устройство по варианту осуществления 136, где длина аллеля HLA составляет от приблизительно 8 до приблизительно 12 аминокислот.Embodiment 138. The device of embodiment 136, wherein the HLA allele length is from about 8 to about 12 amino acids.

Вариант осуществления 139. Устройство по варианту осуществления 136, где длина аллеля HLA составляет от приблизительно 9 до приблизительно 11 аминокислот.Embodiment 139. The device of Embodiment 136, wherein the HLA allele length is from about 9 to about 11 amino acids.

Вариант осуществления 140. Устройство по варианту осуществления 134, где исполняемые процессором команды при исполнении одним или более процессорами дополнительно обеспечивают выполнение устройством следующего: представления набора данных в CNN, при этом набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I, при этом CNN дополнительно выполнена с возможностью классификации каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и синтеза полипептида из кандидатного взаимодействия полипептид-MHC-I, классифицируемого посредством CNN как положительное взаимодействие полипептид-MHC-I.Embodiment 140. The apparatus of embodiment 134, wherein the processor-executable instructions, when executed by one or more processors, further cause the apparatus to: present a dataset in a CNN, wherein the dataset contains a plurality of candidate polypeptide-MHC-I interactions, wherein the CNN further configured to classify each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and synthesizing a polypeptide from a candidate polypeptide-MHC-I interaction classified by the CNN as a positive polypeptide-MHC-I interaction.

Вариант осуществления 141. Полипептид, полученный при помощи устройства по варианту осуществления 140. Embodiment 141 A polypeptide produced using the device of Embodiment 140.

Вариант осуществления 142. Устройство по варианту осуществления 140, где полипептид представляет собой опухолеспецифический антиген.Embodiment 142. The device of embodiment 140, wherein the polypeptide is a tumor-specific antigen.

Вариант осуществления 143. Устройство по варианту осуществления 140, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым аллелем MHC.Embodiment 143. The device of embodiment 140, wherein the polypeptide comprises an amino acid sequence that specifically binds to the MHC-I protein encoded by the MHC allele.

Вариант осуществления 144. Устройство по варианту осуществления 134, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем. Embodiment 144. The apparatus of embodiment 134, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with a selected allele.

Вариант осуществления 145. Устройство по варианту осуществления 144, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций. Embodiment 145. The device of embodiment 144 wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705, and combinations thereof.

Вариант осуществления 146. Устройство по варианту осуществления 134, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают повторение устройством стадий a-d до тех пор, пока первый критерий останова не будет соблюден, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают оценивание устройством выражения градиентного спуска для генератора GAN.Embodiment 146. The apparatus of embodiment 134, wherein processor-executable instructions that, when executed by one or more processors, cause the device to repeat steps a-d until the first stop criterion is met, further provide processor-executable instructions that, when executed by one or more more processors provide device evaluation of the gradient descent expression for the GAN generator.

Вариант осуществления 147. Устройство по варианту осуществления 134, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают повторение устройством стадий a-d до тех пор, пока первый критерий останова не будет соблюден, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: итеративного выполнения (например, оптимизации) дискриминатора GAN для увеличения возможности присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I, низкой вероятности положительным смоделированным данным взаимодействия полипептид-MHC-I и низкой вероятности отрицательных смоделированных данных взаимодействия полипептид-MHC-I; и итеративного выполнения (например, оптимизации) генератора GAN для увеличения возможности того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.Embodiment 147. The apparatus of embodiment 134, wherein processor-executable instructions that, when executed by one or more processors, cause the device to repeat steps a-d until the first stop criterion is met, further provide processor-executable instructions that, when executed by one or more more processors cause the device to: iteratively execute (e.g., optimize) the GAN discriminator to increase the ability to assign a high probability of positive real polypeptide-MHC-I interaction data, a low probability of positive simulated polypeptide-MHC-I interaction data, and a low probability of negative simulated interaction data polypeptide-MHC-I; and iteratively performing (eg, optimizing) the GAN generator to increase the possibility that positive simulated polypeptide-MHC-I interaction data will be highly valued.

Вариант осуществления 148. Устройство по варианту осуществления 134, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление устройством в CNN данных для обучения CNN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: выполнения процедуры свертки; выполнения процедуры нелинейности (например, ReLu), выполнения процедуры объединения или субдискретизации; и выполнения процедуры классификации (полносвязный слой).Embodiment 148. The apparatus of embodiment 134, wherein processor-executable instructions that, when executed by one or more processors, cause the device to present data to the CNN for training the CNN, further provide processor-executable instructions that, when executed by one or more processors, cause the device to perform the following: performing the convolution procedure; performing a non-linearity procedure (eg, ReLu), performing a pooling or subsampling procedure; and performing a classification procedure (fully connected layer).

Вариант осуществления 149. Устройство по варианту осуществления 134, где GAN включает глубокую сверточную GAN (DCGAN).Embodiment 149. The apparatus of embodiment 134, wherein the GAN includes a deep convolutional GAN (DCGAN).

Вариант осуществления 150. Устройство по варианту осуществления 134, где первый критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 150. The apparatus of embodiment 134, wherein the first stop criterion includes an estimate of a Mean Square Error (MSE) function.

Вариант осуществления 151. Устройство по варианту осуществления 134, где второй критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 151. The apparatus of embodiment 134, wherein the second stop criterion includes an estimate of a Mean Square Error (MSE) function.

Вариант осуществления 152. Устройство по варианту осуществления 134, где третий критерий останова включает оценку функции площади под кривой (AUC).Embodiment 152. The apparatus of embodiment 134, wherein the third stopping criterion includes an estimate of an area under the curve (AUC) function.

Вариант осуществления 153. Устройство, содержащее: один или более процессоров; и запоминающее устройство, в котором хранятся исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: обучения сверточной нейронной сети (CNN) теми же средствами, что и устройство по варианту 83 осуществления; представления набора данных в CNN, где набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I, где CNN выполнена с возможностью классификации каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и синтеза полипептида, связанного с кандидатным взаимодействием полипептид-MHC-I, классифицируемого посредством CNN как положительное взаимодействие полипептид-MHC-I.Embodiment 153. An apparatus comprising: one or more processors; and a memory that stores processor-executable instructions that, when executed by one or more processors, cause the device to: train a convolutional neural network (CNN) by the same means as the device of embodiment 83; presenting the dataset to a CNN, where the dataset comprises a plurality of candidate polypeptide-MHC-I interactions, wherein the CNN is configured to classify each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and synthesizing a polypeptide associated with a candidate polypeptide-MHC-I interaction classified by the CNN as a positive polypeptide-MHC-I interaction.

Вариант осуществления 154. Устройство по варианту осуществления 153, где CNN подвергается обучению на основании одного или более параметров GAN, включающих одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.Embodiment 154. The apparatus of embodiment 153, wherein the CNN is trained based on one or more GAN parameters including one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

Вариант осуществления 155. Устройство по варианту осуществления 154, где тип аллеля HLA включает один или более из HLA-A, HLA-B, HLA-C или их подтип. Embodiment 155. The device of embodiment 154, wherein the HLA allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

Вариант осуществления 156. Устройство по варианту осуществления 154, где длина аллеля HLA составляет от приблизительно 8 до приблизительно 12 аминокислот.Embodiment 156. The device of embodiment 154, wherein the HLA allele length is from about 8 to about 12 amino acids.

Вариант осуществления 157. Устройство по варианту осуществления 155, где длина аллеля HLA составляет от приблизительно 9 до приблизительно 11 аминокислот.Embodiment 157. The device of embodiment 155, wherein the HLA allele length is from about 9 to about 11 amino acids.

Вариант осуществления 158. Полипептид, полученный при помощи устройства по варианту осуществления 153. Embodiment 158 A polypeptide produced using the device of Embodiment 153.

Вариант осуществления 159. Устройство по варианту осуществления 153, где полипептид представляет собой опухолеспецифический антиген.Embodiment 159. The device of Embodiment 153, wherein the polypeptide is a tumor-specific antigen.

Вариант осуществления 160. Устройство по варианту осуществления 153, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем MHC.Embodiment 160. The device of Embodiment 153, wherein the polypeptide comprises an amino acid sequence that specifically binds to an MHC-I protein encoded by the selected MHC allele.

Вариант осуществления 161. Устройство по варианту осуществления 153, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем. Embodiment 161. The device of embodiment 153, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with a selected allele.

Вариант осуществления 162. Устройство по варианту осуществления 161, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций. Embodiment 162. The device of embodiment 161 wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705, and combinations thereof.

Вариант осуществления 163. Устройство по варианту осуществления 153, где GAN включает глубокую сверточную GAN (DCGAN).Embodiment 163. The apparatus of embodiment 153, wherein the GAN includes a deep convolutional GAN (DCGAN).

Вариант осуществления 164. Энергонезависимый машиночитаемый носитель для обучения генеративно-состязательной сети (GAN), причем энергонезависимый машиночитаемый носитель хранит исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: генерирования все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные; представления положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные; представления положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в CNN для генерирования оценок прогноза; определения на основании оценок прогноза того, что GAN обучена; и выведения GAN и CNN.Embodiment 164. A non-volatile computer-readable medium for training a generative adversarial network (GAN), wherein the non-volatile computer-readable medium stores processor-executable instructions that, when executed by one or more processors, cause the one or more processors to do the following: generate increasingly accurate positive simulated interaction data polypeptide -MHC-I until the GAN discriminator classifies positive simulated polypeptide-MHC-I interaction data as positive; presenting positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data to a convolutional neural network (CNN) until the CNN classifies the polypeptide-MHC interaction data -I as positive or negative; presenting positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data to the CNN to generate predictive scores; determining, based on prediction estimates, that the GAN is trained; and derivation of GAN and CNN.

Вариант осуществления 165. Энергонезависимый машиночитаемый носитель по варианту осуществления 164, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают генерирование одним или более процессорами все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, дополнительно обеспечивают выполнение одним или более процессорами следующего: генерирования в соответствии с набором параметров GAN первого смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединения первого смоделированного набора данных с положительными реальными взаимодействиями полипептид-MHC-I для аллеля MHC и отрицательными реальными взаимодействиями полипептид-MHC-I для аллеля MHC для создания набора данных для обучения GAN; получения информации от дискриминатора, при этом дискриминатор выполнен с возможностью определения, в соответствии с решающей границей, является ли положительное взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN положительным или отрицательным; корректировки, основанной на точности информации от дискриминатора, одного или более из набора параметров GAN или решающей границы; и повторения стадий a-d до тех пор, пока не будет соблюден первый критерий останова.Embodiment 165. The non-volatile computer-readable medium of embodiment 164, wherein processor-executable instructions that, when executed by one or more processors, cause the one or more processors to generate progressively more accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifying positive simulated polypeptide-MHC-I interaction data as positive, further causing one or more processors to: generate, in accordance with the GAN parameter set, a first simulated data set containing simulated positive polypeptide-MHC-I interactions for the MHC allele; combining the first simulated data set with positive real polypeptide-MHC-I interactions for the MHC allele and negative real polypeptide-MHC-I interactions for the MHC allele to create a GAN training data set; obtaining information from the discriminator, the discriminator being configured to determine, according to a decision boundary, whether a positive interaction of the polypeptide-MHC-I for the MHC allele in the GAN training data set is positive or negative; an adjustment based on the accuracy of the information from the discriminator, one or more of the GAN parameter set, or the decision boundary; and repeating steps a-d until the first stop criterion is met.

Вариант осуществления 166. Энергонезависимый машиночитаемый носитель по варианту осуществления 165, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление одним или более процессорами положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: генерирования в соответствии с набором параметров GAN второго смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I; объединения второго смоделированного набора данных, положительных реальных взаимодействий полипептид-MHC-I для аллеля MHC и отрицательных реальных данных взаимодействия полипептид-MHC-I для аллеля MHC для создания набора данных для обучения CNN; представления набора данных для обучения CNN в сверточную нейронную сеть (CNN); получения информации для обучения от CNN, при этом CNN выполнена с возможностью определения информации для обучения путем классификации в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN как положительного или отрицательного; корректировки, основанной на точности информации для обучения, одного или более из набора параметров CNN; и повторения стадий h-j до тех пор, пока не будет соблюден второй критерий останова.Embodiment 166. The nonvolatile computer-readable medium of embodiment 165, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to present positive simulated polypeptide-MHC-I interaction data, positive real-world polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data into a convolutional neural network (CNN) until the CNN classifies the polypeptide-MHC-I interaction data as positive or negative, further provide processor-executable instructions that, when executed by one or more processors, provide performing by one or more processors the following: generating, in accordance with the GAN parameter set, a second simulated data set containing simulated positive interactions of the polypeptide-MHC-I; combining a second simulated dataset, positive real-life polypeptide-MHC-I interactions for the MHC allele, and negative real-life polypeptide-MHC-I interaction data for the MHC allele to create a CNN training dataset; representing a dataset for training a CNN into a convolutional neural network (CNN); obtaining training information from the CNN, the CNN being configured to determine the training information by classifying according to the polypeptide-MHC-I interaction parameter set of the CNN for the MHC allele in the training data set of the CNN as positive or negative; adjusting, based on the accuracy of the training information, one or more of the set of CNN parameters; and repeating steps h-j until the second stopping criterion is met.

Вариант осуществления 167. Энергонезависимый машиночитаемый носитель по варианту осуществления 166, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление одним или более процессорами положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в CNN для генерирования оценок прогноза, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление одним или более процессорами в CNN положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I, где CNN дополнительно выполнена с возможностью классификации в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного. Embodiment 167. The nonvolatile computer-readable medium of embodiment 166, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to present positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data in The CNNs for generating prediction scores further provide processor-executable instructions that, when executed by one or more processors, cause the one or more processors to present positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data to the CNN, where the CNN is further configured to classify, according to a set of CNN interaction parameters, the polypeptide-MHC-I for the MHC allele as positive or negative.

Вариант осуществления 168. Энергонезависимый машиночитаемый носитель по варианту осуществления 167, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение одним или более процессорами на основании оценок прогноза того, обучена ли GAN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами определения точности классификации взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного и, когда (если) точность классификации удовлетворяет третьему критерию останова, выведения GAN и CNN. Embodiment 168. The nonvolatile computer-readable medium of embodiment 167, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to determine, based on prediction estimates, whether the GAN has been trained, further provide processor-executable instructions that, when executed by one or more or more processors cause one or more processors to determine the classification accuracy of the polypeptide-MHC-I interaction for the MHC allele as positive or negative and, when (if) the classification accuracy satisfies the third stop criterion, inferring GANs and CNNs.

Вариант осуществления 169. Энергонезависимый машиночитаемый носитель по варианту осуществления 167, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение одним или более процессорами на основании оценок прогноза того, обучена ли GAN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами определения точности классификации взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного и, когда (если) точность классификации не удовлетворяет третьему критерию останова, возвращения к стадии а.Embodiment 169. The nonvolatile computer-readable medium of embodiment 167, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to determine, based on prediction estimates, whether the GAN has been trained, further provide processor-executable instructions that, when executed by one or more or more processors cause the one or more processors to determine the classification accuracy of the polypeptide-MHC-I interaction for the MHC allele as positive or negative and, when (if) the classification accuracy does not satisfy the third stop criterion, return to step a.

Вариант осуществления 170. Энергонезависимый машиночитаемый носитель по варианту осуществления 165, где параметры GAN включают одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.Embodiment 170. The nonvolatile computer-readable medium of embodiment 165, wherein the GAN parameters include one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

Вариант осуществления 171. Энергонезависимый машиночитаемый носитель по варианту осуществления 165, где аллель MHC представляет собой аллель HLA.Embodiment 171. The non-volatile computer-readable medium of embodiment 165, wherein the MHC allele is an HLA allele.

Вариант осуществления 172. Энергонезависимый машиночитаемый носитель по варианту осуществления 171, где тип аллеля HLA включает один или более из HLA-A, HLA-B, HLA-C или их подтип. Embodiment 172. The nonvolatile computer-readable medium of Embodiment 171, wherein the HLA allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

Вариант осуществления 173. Энергонезависимый машиночитаемый носитель по варианту осуществления 171, где длина аллеля HLA составляет от приблизительно 8 до приблизительно 12 аминокислот.Embodiment 173. The nonvolatile computer-readable medium of Embodiment 171, wherein the HLA allele length is from about 8 to about 12 amino acids.

Вариант осуществления 174. Энергонезависимый машиночитаемый носитель по варианту осуществления 171, где длина аллеля HLA составляет от приблизительно 9 до приблизительно 11 аминокислот.Embodiment 174. The nonvolatile computer-readable medium of Embodiment 171, wherein the HLA allele length is from about 9 to about 11 amino acids.

Вариант осуществления 175. Энергонезависимый машиночитаемый носитель по варианту осуществления 164, где исполняемые процессором команды при исполнении одним или более процессорами дополнительно обеспечивают выполнение одним или более процессорами следующего: представления набора данных в CNN, при этом набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I, при этом CNN дополнительно выполнена с возможностью классификации каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и синтеза полипептида из кандидатного взаимодействия полипептид-MHC-I, которое CNN классифицирует как положительное взаимодействие полипептид-MHC-I.Embodiment 175. The nonvolatile computer-readable medium of embodiment 164, wherein the processor-executable instructions, when executed by one or more processors, further cause the one or more processors to perform the following: Present a dataset in a CNN, wherein the dataset contains a plurality of candidate polypeptide-MHC-I interactions wherein the CNN is further configured to classify each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and synthesizing a polypeptide from a candidate polypeptide-MHC-I interaction that CNN classifies as a positive polypeptide-MHC-I interaction.

Вариант осуществления 176. Полипептид, полученный при помощи энергонезависимого машиночитаемого носителя по варианту осуществления 175. Embodiment 176. The polypeptide obtained using the non-volatile computer-readable medium of Embodiment 175.

Вариант осуществления 177. Энергонезависимый машиночитаемый носитель по варианту осуществления 175, где полипептид представляет собой опухолеспецифический антиген.Embodiment 177. The nonvolatile computer-readable medium of Embodiment 175, wherein the polypeptide is a tumor-specific antigen.

Вариант осуществления 178. Энергонезависимый машиночитаемый носитель по варианту осуществления 175, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем MHC.Embodiment 178. The nonvolatile computer-readable medium of embodiment 175, wherein the polypeptide contains an amino acid sequence that specifically binds to the MHC-I protein encoded by the selected MHC allele.

Вариант осуществления 179. Энергонезависимый машиночитаемый носитель по варианту осуществления 164, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем. Embodiment 179. The nonvolatile computer-readable medium of embodiment 164, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with a selected allele.

Вариант осуществления 180. Энергонезависимый машиночитаемый носитель по варианту осуществления 179, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций. Embodiment 180. The nonvolatile computer-readable medium of Embodiment 179, wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705, and combinations thereof.

Вариант осуществления 181. Энергонезависимый машиночитаемый носитель по варианту осуществления 164, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают генерирование одним или более процессорами все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают оценивание одним или более процессорами выражения градиентного спуска для генератора GAN.Embodiment 181. The non-volatile computer-readable medium of embodiment 164, wherein processor-executable instructions that, when executed by one or more processors, cause the one or more processors to generate increasingly accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifying positive simulated polypeptide-MHC-I interaction data as positive, further providing processor-executable instructions that, when executed by one or more processors, cause one or more processors to evaluate a gradient descent expression for the GAN generator.

Вариант осуществления 182. Энергонезависимый машиночитаемый носитель по варианту осуществления 164, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают генерирование одним или более процессорами все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: итеративного выполнения (например, оптимизации) дискриминатора GAN для увеличения возможности присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I и низкой вероятности положительным смоделированным данным взаимодействия полипептид-MHC-I; и итеративного выполнения (например, оптимизации) генератора GAN для увеличения возможности того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.Embodiment 182. The nonvolatile computer-readable medium of embodiment 164, wherein processor-executable instructions that, when executed by one or more processors, cause the one or more processors to generate progressively more accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated polypeptide-MHC-I interaction data as positive, further provides for processor-executable instructions that, when executed by one or more processors, causes one or more processors to perform the following: real polypeptide-MHC-I interaction data and low probability positive simulated polypeptide-MHC-I interaction data; and iteratively performing (eg, optimizing) the GAN generator to increase the possibility that positive simulated polypeptide-MHC-I interaction data will be highly valued.

Вариант осуществления 183. Энергонезависимый машиночитаемый носитель по варианту осуществления 164, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление одним или более процессорами положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как реальные положительные или отрицательные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: выполнения процедуры свертки; выполнения процедуры нелинейности (например, ReLu), выполнения процедуры объединения или субдискретизации; и выполнения процедуры классификации (полносвязный слой).Embodiment 183. The nonvolatile computer-readable medium of embodiment 164, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to present positive simulated polypeptide-MHC-I interaction data, positive real-world polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data into a convolutional neural network (CNN) until the CNN classifies the polypeptide-MHC-I interaction data as real positive or negative, further provide processor-executable instructions that, when executed by one or more processors cause one or more processors to perform the following: perform a convolution procedure; performing a non-linearity procedure (eg, ReLu), performing a pooling or subsampling procedure; and performing a classification procedure (fully connected layer).

Вариант осуществления 184. Энергонезависимый машиночитаемый носитель по варианту осуществления 164, где GAN включает глубокую сверточную GAN (DCGAN).Embodiment 184. The non-volatile computer-readable medium of embodiment 164, wherein the GAN includes a deep convolutional GAN (DCGAN).

Вариант осуществления 185. Энергонезависимый машиночитаемый носитель по варианту осуществления 165, где первый критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 185. The non-volatile computer-readable medium of embodiment 165, wherein the first stop criterion includes an estimate of a mean square error (MSE) function.

Вариант осуществления 186. Энергонезависимый машиночитаемый носитель по варианту осуществления 166, где второй критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 186. The non-volatile computer-readable medium of embodiment 166, wherein the second stop criterion includes an estimate of a mean square error (MSE) function.

Вариант осуществления 187. Энергонезависимый машиночитаемый носитель по варианту осуществления 168 или 169, где третий критерий останова включает оценку функции площади под кривой (AUC).Embodiment 187. The nonvolatile computer-readable medium of embodiment 168 or 169, wherein the third stop criterion includes an area under the curve (AUC) function estimate.

Вариант осуществления 188. Энергонезависимый машиночитаемый носитель по варианту осуществления 164, где оценка прогноза представляет собой вероятность того, что положительные реальные данные взаимодействия полипептид-MHC-I классифицированы как положительные данные взаимодействия полипептид-MHC-I.Embodiment 188. The nonvolatile computer-readable medium of embodiment 164, wherein the prediction score is the probability that positive real polypeptide-MHC-I interaction data is classified as positive polypeptide-MHC-I interaction data.

Вариант осуществления 189. Энергонезависимый машиночитаемый носитель по варианту осуществления 164, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение одним или более процессорами на основании оценок прогноза того, обучена ли GAN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают сравнение одним или более процессорами одной или более оценок прогноза с пороговым значением.Embodiment 189. The nonvolatile computer-readable medium of embodiment 164, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to determine, based on prediction estimates, whether the GAN has been trained, further provide processor-executable instructions that, when executed by one or more or more processors cause one or more processors to compare one or more prediction estimates with a threshold value.

Вариант осуществления 190. Энергонезависимый машиночитаемый носитель для обучения генеративно-состязательной сети (GAN), причем энергонезависимый машиночитаемый носитель хранит исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: генерирования все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные; представления положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные; представления положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в CNN для генерирования оценок прогноза; определения на основании оценок прогноза того, что GAN не обучена; повторения стадий а-с до тех пор, пока не будет выполнено определение на основании оценок прогноза того, что GAN обучена; и выведения GAN и CNN.Embodiment 190. A non-volatile computer-readable medium for training a generative adversarial network (GAN), wherein the non-volatile computer-readable medium stores processor-executable instructions that, when executed by one or more processors, cause the one or more processors to do the following: generate increasingly accurate positive simulated interaction data polypeptide -MHC-I until the GAN discriminator classifies positive simulated polypeptide-MHC-I interaction data as positive; presenting positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data to a convolutional neural network (CNN) until the CNN classifies the polypeptide-MHC interaction data -I as positive or negative; presenting positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data to the CNN to generate predictive scores; determining, based on the prediction estimates, that the GAN is not trained; repeating steps a-c until a determination is made based on prediction estimates that the GAN has been trained; and derivation of GAN and CNN.

Вариант осуществления 191. Энергонезависимый машиночитаемый носитель по варианту осуществления 190, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают генерирование одним или более процессорами все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: генерирования в соответствии с набором параметров GAN первого смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединения первого смоделированного набора данных с положительными реальными взаимодействиями полипептид-MHC-I для аллеля MHC и положительными реальными взаимодействиями полипептид-MHC-I для аллеля MHC для создания набора данных для обучения GAN; получения информации от дискриминатора, при этом дискриминатор выполнен с возможностью определения того, является ли положительное взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN положительным или отрицательным; корректировки, основанной на точности информации от дискриминатора, одного или более из набора параметров GAN или решающей границы; и повторения стадий g-j до тех пор, пока не будет соблюден первый критерий останова.Embodiment 191. The non-volatile computer-readable medium of embodiment 190, wherein processor-executable instructions that, when executed by one or more processors, cause the one or more processors to generate progressively more accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated polypeptide-MHC-I interaction data as positive, further provides processor-executable instructions that, when executed by one or more processors, cause one or more processors to: generate, in accordance with the GAN parameter set, a first simulated data set containing simulated positive interactions polypeptide-MHC-I for the MHC allele; combining the first simulated data set with positive real polypeptide-MHC-I interactions for the MHC allele and positive real polypeptide-MHC-I interactions for the MHC allele to create a GAN training data set; obtaining information from the discriminator, the discriminator being configured to determine whether a positive interaction of the polypeptide-MHC-I for the MHC allele in the GAN training data set is positive or negative; an adjustment based on the accuracy of the information from the discriminator, one or more of the GAN parameter set, or the decision boundary; and repeating steps g-j until the first stopping criterion is met.

Вариант осуществления 192. Энергонезависимый машиночитаемый носитель по варианту осуществления 191, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление устройством положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: генерирования в соответствии с набором параметров GAN второго смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I; объединения второго смоделированного набора данных, положительных реальных взаимодействий полипептид-MHC-I для аллеля MHC и отрицательных реальных данных взаимодействия полипептид-MHC-I для аллеля MHC для создания набора данных для обучения CNN; представления набора данных для обучения CNN в сверточную нейронную сеть (CNN); получения информации от CNN, при этом CNN выполнена с возможностью определения информации путем классификации в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN как положительного или отрицательного; корректировки, основанной на точности информации для обучения от CNN, одного или более из набора параметров CNN; и повторения стадий l-p до тех пор, пока не будет соблюден второй критерий останова.Embodiment 192. The nonvolatile computer-readable medium of embodiment 191, wherein processor-executable instructions that, when executed by one or more processors, cause the device to present positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real data polypeptide-MHC-I interactions to a convolutional neural network (CNN) until the CNN classifies the polypeptide-MHC-I interaction data as positive or negative, further provide processor-executable instructions that, when executed by one or more processors, cause one or more more processors of the following: generating, in accordance with the GAN parameter set, a second simulated data set containing simulated positive polypeptide-MHC-I interactions; combining a second simulated dataset, positive real-life polypeptide-MHC-I interactions for the MHC allele, and negative real-world polypeptide-MHC-I interaction data for the MHC allele to create a CNN training dataset; representing a dataset for training a CNN into a convolutional neural network (CNN); obtaining information from the CNN, wherein the CNN is configured to determine the information by classifying according to a set of polypeptide-MHC-I interaction parameters of the CNN for the MHC allele in the CNN training dataset as positive or negative; an adjustment based on the accuracy of the training information from the CNN, one or more of the set of CNN parameters; and repeating steps l-p until the second stop criterion is met.

Вариант осуществления 193. Энергонезависимый машиночитаемый носитель по варианту осуществления 192, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление одним или более процессорами положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в CNN для генерирования оценок прогноза, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление одним или более процессорами в CNN положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I, где CNN дополнительно выполнена с возможностью классификации в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного. Embodiment 193. The nonvolatile computer-readable medium of embodiment 192, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to present positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data in The CNNs for generating prediction scores further provide processor-executable instructions that, when executed by one or more processors, cause the one or more processors to present positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data to the CNN, where the CNN is further configured to classify, according to a set of CNN interaction parameters, the polypeptide-MHC-I interaction for the MHC allele as positive or negative.

Вариант осуществления 194. Энергонезависимый машиночитаемый носитель по варианту осуществления 193, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение одним или более процессорами на основании оценок прогноза того, обучена ли GAN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: определения точности классификации посредством CNN; определения того, что точность классификации удовлетворяет третьему критерию останова; и в ответ на определение того, что точность классификации удовлетворяет третьему критерию останова, выведения GAN и CNN.Embodiment 194. The nonvolatile computer-readable medium of embodiment 193, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to determine, based on prediction estimates, whether the GAN has been trained, further provide processor-executable instructions that, when executed by one or more or more processors cause one or more processors to perform the following: determining the accuracy of the classification by the CNN; determining that the classification accuracy satisfies the third stopping criterion; and in response to determining that the classification accuracy satisfies the third stopping criterion, deriving the GAN and CNN.

Вариант осуществления 195. Энергонезависимый машиночитаемый носитель по варианту осуществления 194, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение одним или более процессорами на основании оценок прогноза того, обучена ли GAN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: определения точности классификации посредством CNN; определения того, что точность классификации не удовлетворяет третьему критерию останова; и в ответ на определение того, что точность классификации не удовлетворяет третьему критерию останова, возвращения к стадии а.Embodiment 195. The nonvolatile computer-readable medium of embodiment 194, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to determine, based on prediction estimates, whether the GAN has been trained, further provide processor-executable instructions that, when executed by one or more or more processors cause one or more processors to perform the following: determining the accuracy of the classification by the CNN; determining that the classification accuracy does not satisfy the third stopping criterion; and in response to determining that the classification accuracy does not satisfy the third stopping criterion, returning to step a.

Вариант осуществления 196. Энергонезависимый машиночитаемый носитель по варианту осуществления 191, где параметры GAN включают одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.Embodiment 196. The nonvolatile computer-readable medium of embodiment 191, wherein the GAN parameters include one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

Вариант осуществления 197. Энергонезависимый машиночитаемый носитель по варианту осуществления 191, где аллель MHC представляет собой аллель HLA.Embodiment 197. The non-volatile computer-readable medium of Embodiment 191, wherein the MHC allele is an HLA allele.

Вариант осуществления 198. Энергонезависимый машиночитаемый носитель по варианту осуществления 197, где тип аллеля HLA включает один или более из HLA-A, HLA-B, HLA-C или их подтип. Embodiment 198. The nonvolatile computer-readable medium of embodiment 197, wherein the HLA allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

Вариант осуществления 199. Энергонезависимый машиночитаемый носитель по варианту осуществления 197, где длина аллеля HLA составляет от приблизительно 8 до приблизительно 12 аминокислот.Embodiment 199. The nonvolatile computer-readable medium of Embodiment 197, wherein the HLA allele length is from about 8 to about 12 amino acids.

Вариант осуществления 200. Энергонезависимый машиночитаемый носитель по варианту осуществления 197, где длина аллеля HLA составляет от приблизительно 9 до приблизительно 11 аминокислот.Embodiment 200. The non-volatile computer-readable medium of Embodiment 197, wherein the HLA allele length is from about 9 to about 11 amino acids.

Вариант осуществления 201. Энергонезависимый машиночитаемый носитель по варианту осуществления 190, где исполняемые процессором команды при исполнении одним или более процессорами дополнительно обеспечивают выполнение одним или более процессорами следующего: представления набора данных в CNN, при этом набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I, при этом CNN дополнительно выполнена с возможностью классификации каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и синтеза полипептида из кандидатного взаимодействия полипептид-MHC-I, классифицируемого посредством CNN как положительное взаимодействие полипептид-MHC-I.Embodiment 201. The nonvolatile computer-readable medium of embodiment 190, wherein the processor-executable instructions, when executed by one or more processors, further cause the one or more processors to: present a dataset to a CNN, wherein the dataset contains a plurality of candidate polypeptide-MHC-I interactions wherein the CNN is further configured to classify each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and synthesizing a polypeptide from a candidate polypeptide-MHC-I interaction classified by the CNN as a positive polypeptide-MHC-I interaction.

Вариант осуществления 202. Полипептид, полученный при помощи энергонезависимого машиночитаемого носителя по варианту осуществления 201. Embodiment 202. A polypeptide obtained using the non-volatile computer-readable medium of Embodiment 201.

Вариант осуществления 203. Энергонезависимый машиночитаемый носитель по варианту осуществления 201, где полипептид представляет собой опухолеспецифический антиген.Embodiment 203. The non-volatile computer-readable medium of Embodiment 201, wherein the polypeptide is a tumor-specific antigen.

Вариант осуществления 204. Энергонезависимый машиночитаемый носитель по варианту осуществления 201, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем MHC.Embodiment 204. The nonvolatile computer-readable medium of embodiment 201, wherein the polypeptide contains an amino acid sequence that specifically binds to the MHC-I protein encoded by the selected MHC allele.

Вариант осуществления 205. Энергонезависимый машиночитаемый носитель по варианту осуществления 190, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем. Embodiment 205. The nonvolatile computer-readable medium of embodiment 190, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with a selected allele.

Вариант осуществления 206. Энергонезависимый машиночитаемый носитель по варианту осуществления 205, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций. Embodiment 206. The nonvolatile computer-readable medium of embodiment 205, wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705, and combinations thereof.

Вариант осуществления 207. Энергонезависимый машиночитаемый носитель по варианту осуществления 190, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают генерирование одним или более процессорами все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают оценивание одним или более процессорами выражения градиентного спуска для генератора GAN.Embodiment 207. The non-volatile computer-readable medium of embodiment 190, wherein processor-executable instructions that, when executed by one or more processors, cause the one or more processors to generate progressively more accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifying positive simulated polypeptide-MHC-I interaction data as positive, further providing processor-executable instructions that, when executed by one or more processors, cause one or more processors to evaluate a gradient descent expression for the GAN generator.

Вариант осуществления 208. Энергонезависимый машиночитаемый носитель по варианту осуществления 190, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают генерирование одним или более процессорами все более точных положительных смоделированных данных взаимодействия полипептид-MHC-I до тех пор, пока дискриминатор GAN не классифицирует положительные смоделированные данные взаимодействия полипептид-MHC-I как положительные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: итеративного выполнения (например, оптимизации) дискриминатора GAN для увеличения возможности присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I, низкой вероятности положительным смоделированным данным взаимодействия полипептид-MHC-I и низкой вероятности отрицательных смоделированных данных взаимодействия полипептид-MHC-I; а также итеративного выполнения (например, оптимизации) генератора GAN для увеличения возможности того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.Embodiment 208. The nonvolatile computer-readable medium of embodiment 190, wherein processor-executable instructions that, when executed by one or more processors, cause the one or more processors to generate progressively more accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated polypeptide-MHC-I interaction data as positive, further provides for processor-executable instructions that, when executed by one or more processors, causes one or more processors to perform the following: real polypeptide-MHC-I interaction data, low probability of positive simulated polypeptide-MHC-I interaction data, and low probability of negative simulated interaction data polypeptide-MHC-I; and iteratively performing (eg, optimizing) the GAN generator to increase the possibility that positive simulated polypeptide-MHC-I interaction data will be highly valued.

Вариант осуществления 209. Энергонезависимый машиночитаемый носитель по варианту осуществления 190, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление одним или более процессорами положительных смоделированных данных взаимодействия полипептид-MHC-I, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I в сверточную нейронную сеть (CNN) до тех пор, пока CNN не классифицирует данные взаимодействия полипептид-MHC-I как положительные или отрицательные, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: выполнения процедуры свертки; выполнения процедуры нелинейности (например, ReLu), выполнения процедуры объединения или субдискретизации; и выполнения процедуры классификации (полносвязный слой).Embodiment 209. The nonvolatile computer-readable medium of embodiment 190, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to present positive simulated polypeptide-MHC-I interaction data, positive real-world polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data into a convolutional neural network (CNN) until the CNN classifies the polypeptide-MHC-I interaction data as positive or negative, further provide processor-executable instructions that, when executed by one or more processors, provide performing by one or more processors the following: performing a convolution procedure; performing a non-linearity procedure (eg, ReLu), performing a pooling or subsampling procedure; and performing a classification procedure (fully connected layer).

Вариант осуществления 210. Энергонезависимый машиночитаемый носитель по варианту осуществления 190, где GAN включает глубокую сверточную GAN (DCGAN).Embodiment 210. The non-volatile computer-readable medium of embodiment 190, wherein the GAN includes a deep convolutional GAN (DCGAN).

Вариант осуществления 211. Энергонезависимый машиночитаемый носитель по варианту осуществления 191, где первый критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 211. The nonvolatile computer-readable medium of embodiment 191, wherein the first stop criterion includes an estimate of a mean square error (MSE) function.

Вариант осуществления 212. Энергонезависимый машиночитаемый носитель по варианту осуществления 190, где второй критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 212. The nonvolatile computer-readable medium of embodiment 190, wherein the second stop criterion includes an estimate of a mean square error (MSE) function.

Вариант осуществления 213. Энергонезависимый машиночитаемый носитель по варианту осуществления 194 или 195, где третий критерий останова включает оценку функции площади под кривой (AUC).Embodiment 213. The nonvolatile computer-readable medium of embodiment 194 or 195, wherein the third stopping criterion includes an area under the curve (AUC) function estimate.

Вариант осуществления 214. Энергонезависимый машиночитаемый носитель по варианту осуществления 190, где оценка прогноза представляет собой вероятность того, что положительные реальные данные взаимодействия полипептид-MHC-I классифицированы как положительные данные взаимодействия полипептид-MHC-I.Embodiment 214. The nonvolatile computer-readable medium of embodiment 190, wherein the prediction score is the probability that positive real polypeptide-MHC-I interaction data is classified as positive polypeptide-MHC-I interaction data.

Вариант осуществления 215. Энергонезависимый машиночитаемый носитель по варианту осуществления 190, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают определение одним или более процессорами на основании оценок прогноза того, обучена ли GAN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают сравнение одним или более процессорами одной или более оценок прогноза с пороговым значением.Embodiment 215. The nonvolatile computer-readable medium of embodiment 190, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to determine, based on prediction estimates, whether the GAN has been trained, further provide processor-executable instructions that, when executed by one or more or more processors cause one or more processors to compare one or more prediction estimates with a threshold value.

Вариант осуществления 216. Энергонезависимый машиночитаемый носитель для обучения генеративно-состязательной сети (GAN), причем энергонезависимый машиночитаемый носитель хранит исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение устройством следующего: генерирования в соответствии с набором параметров GAN первого смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединение первого смоделированного набора данных с положительными реальными взаимодействиями полипептид-MHC-I для аллеля MHC и отрицательными реальными взаимодействиями полипептид-MHC-I для аллеля MHC для создания набора данных для обучения GAN; получения информации от дискриминатора, при этом дискриминатор выполнен с возможностью определения, в соответствии с решающей границей, является ли положительное взаимодействие полипептид-MHC-I для аллеля MHC в наборе данных для обучения GAN положительным или отрицательным; корректировки, основанной на точности информации от дискриминатора, одного или более из набора параметров GAN или решающей границы; повторения стадий a-d до тех пор, пока не будет соблюден первый критерий останова; генерирования с помощью генератора GAN в соответствии с набором параметров GAN второго смоделированного набора данных, содержащего смоделированные положительные взаимодействия полипептид-MHC-I для аллеля MHC; объединения второго смоделированного набора данных, положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I для аллеля MHC для создания набора данных для обучения CNN; представление набора данных для обучения CNN в сверточную нейронную сеть (CNN); получения информации для обучения от CNN, где CNN выполнена с возможностью определения информации для обучения путем классификации в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC в наборе данных для обучения CNN как положительного или отрицательного; корректировки, основанной на точности информации для обучения, одного или более из набора параметров CNN; повторения стадий h-j до тех пор, пока не будет соблюден второй критерий останова; представления в CNN положительных реальных данных взаимодействия полипептид-MHC-I и отрицательных реальных данных взаимодействия полипептид-MHC-I; получения информации для обучения от CNN, где CNN выполнена с возможностью определения обучающей информации путем классификации в соответствии с набором параметров CNN взаимодействия полипептид-MHC-I для аллеля MHC как положительного или отрицательного; и определения точности информации для обучения, при этом, когда (если) точность информации для обучения удовлетворяет третьему критерию останова, выведения GAN и CNN,Embodiment 216. A non-volatile computer-readable medium for training a generative adversarial network (GAN), wherein the non-volatile computer-readable medium stores processor-executable instructions that, when executed by one or more processors, cause the device to: generate, in accordance with a GAN parameter set, a first simulated data set, containing simulated positive interactions of the polypeptide-MHC-I for the MHC allele; combining the first simulated dataset with positive real polypeptide-MHC-I interactions for the MHC allele and negative real polypeptide-MHC-I interactions for the MHC allele to create a GAN training dataset; obtaining information from the discriminator, the discriminator being configured to determine, according to a decision boundary, whether a positive interaction of the polypeptide-MHC-I for the MHC allele in the GAN training data set is positive or negative; an adjustment based on the accuracy of the information from the discriminator, one or more of the GAN parameter set, or the decision boundary; repeating steps a-d until the first stop criterion is met; using the GAN generator, according to the GAN parameter set, generating a second simulated dataset containing simulated positive polypeptide-MHC-I interactions for the MHC allele; combining the second simulated data set, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data for the MHC allele to create a CNN training data set; representing a CNN training dataset into a convolutional neural network (CNN); obtaining training information from the CNN, wherein the CNN is configured to determine the training information by classifying according to the polypeptide-MHC-I interaction parameter set of the CNN for the MHC allele in the training data set of the CNN as positive or negative; adjusting, based on the accuracy of the training information, one or more of the set of CNN parameters; repeating steps h-j until the second stop criterion is met; presenting positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data to the CNN; obtaining information for training from the CNN, where the CNN is configured to determine the training information by classifying according to a set of CNN interaction parameters of the polypeptide-MHC-I for the MHC allele as positive or negative; and determining the accuracy of the training information, wherein when (if) the accuracy of the training information satisfies the third stopping criterion, deriving the GAN and CNN,

при этом, когда (если) точность информации для обучения не удовлетворяет третьему критерию останова, возвращения к стадии а.however, when (if) the accuracy of the training information does not satisfy the third stopping criterion, return to stage a.

Вариант осуществления 217. Энергонезависимый машиночитаемый носитель по варианту осуществления 216, где параметры GAN включают одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.Embodiment 217. The nonvolatile computer-readable medium of embodiment 216, wherein the GAN parameters include one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

Вариант осуществления 218. Энергонезависимый машиночитаемый носитель по варианту осуществления 216, где аллель MHC представляет собой аллель HLA.Embodiment 218. The non-volatile computer-readable medium of embodiment 216, wherein the MHC allele is an HLA allele.

Вариант осуществления 219. Энергонезависимый машиночитаемый носитель по варианту осуществления 218, где тип аллеля HLA включает один или более из HLA-A, HLA-B, HLA-C или их подтип. Embodiment 219. The nonvolatile computer-readable medium of embodiment 218, wherein the HLA allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

Вариант осуществления 220. Энергонезависимый машиночитаемый носитель по варианту осуществления 218, где длина аллеля HLA составляет от приблизительно 8 до приблизительно 12 аминокислот.Embodiment 220. The nonvolatile computer-readable medium of Embodiment 218, wherein the HLA allele length is from about 8 to about 12 amino acids.

Вариант осуществления 221. Энергонезависимый машиночитаемый носитель по варианту осуществления 218, где длина аллеля HLA составляет от приблизительно 9 до приблизительно 11 аминокислот.Embodiment 221. The non-volatile computer-readable medium of embodiment 218, wherein the HLA allele length is from about 9 to about 11 amino acids.

Вариант осуществления 222. Энергонезависимый машиночитаемый носитель по варианту осуществления 216, где исполняемые процессором команды при исполнении одним или более процессорами дополнительно обеспечивают выполнение одним или более процессорами следующего: представления набора данных в CNN, при этом набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I, при этом CNN дополнительно выполнена с возможностью классификации каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и синтеза полипептида из кандидатного взаимодействия полипептид-MHC-I, классифицируемого посредством CNN как положительное взаимодействие полипептид-MHC-I.Embodiment 222. The nonvolatile computer-readable medium of embodiment 216, wherein the processor-executable instructions, when executed by one or more processors, further cause the one or more processors to: present a data set to a CNN, wherein the data set contains a plurality of candidate polypeptide-MHC-I interactions wherein the CNN is further configured to classify each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and synthesizing a polypeptide from a candidate polypeptide-MHC-I interaction classified by the CNN as a positive polypeptide-MHC-I interaction.

Вариант осуществления 223. Полипептид, полученный при помощи энергонезависимого машиночитаемого носителя по варианту осуществления 222. Embodiment 223. The polypeptide obtained using the non-volatile computer-readable medium of Embodiment 222.

Вариант осуществления 224. Энергонезависимый машиночитаемый носитель по варианту осуществления 222, где полипептид представляет собой опухолеспецифический антиген.Embodiment 224. The nonvolatile computer-readable medium of Embodiment 222, wherein the polypeptide is a tumor-specific antigen.

Вариант осуществления 225. Энергонезависимый машиночитаемый носитель по варианту осуществления 222, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем MHC.Embodiment 225. The nonvolatile computer-readable medium of embodiment 222, wherein the polypeptide contains an amino acid sequence that specifically binds to the MHC-I protein encoded by the selected MHC allele.

Вариант осуществления 226. Энергонезависимый машиночитаемый носитель по варианту осуществления 216, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем. Embodiment 226. The nonvolatile computer-readable medium of embodiment 216, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with a selected allele.

Вариант осуществления 227. Энергонезависимый машиночитаемый носитель по варианту осуществления 226, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций. Embodiment 227. The nonvolatile computer-readable medium of Embodiment 226, wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705, and combinations thereof.

Вариант осуществления 228. Энергонезависимый машиночитаемый носитель по варианту осуществления 216, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают повторение одним или более процессорами стадий a-d до тех пор, пока первый критерий останова не будет соблюден, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают оценивание одним или более процессорами выражения градиентного спуска для генератора GAN.Embodiment 228. The nonvolatile computer-readable medium of embodiment 216, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to repeat steps a-d until the first stop criterion is met, further provide processor-executable instructions, which, when executed by one or more processors, causes one or more processors to evaluate the gradient descent expression for the GAN generator.

Вариант осуществления 229. Энергонезависимый машиночитаемый носитель по варианту осуществления 216, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают повторение одним или более процессорами стадий a-d до тех пор, пока первый критерий останова не будет соблюден, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: итеративного выполнения (например, оптимизации) дискриминатора GAN для увеличения возможности присвоения высокой вероятности положительным реальным данным взаимодействия полипептид-MHC-I, низкой вероятности положительным смоделированным данным взаимодействия полипептид-MHC-I и низкой вероятности отрицательных смоделированных данных взаимодействия полипептид-MHC-I; и итеративного выполнения (например, оптимизации) генератора GAN для увеличения возможности того, что положительные смоделированные данные взаимодействия полипептид-MHC-I будут иметь высокую оценку.Embodiment 229. The nonvolatile computer-readable medium of embodiment 216, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to repeat steps a-d until the first stop criterion is met, further provide processor-executable instructions, which, when executed by one or more processors, causes one or more processors to perform the following: iteratively executes (e.g., optimizes) the GAN discriminator to increase the ability to assign high probability to positive real polypeptide-MHC-I interaction data, low probability to positive simulated polypeptide-MHC-I interaction data I and low probability of negative simulated polypeptide-MHC-I interaction data; and iteratively performing (eg, optimizing) the GAN generator to increase the possibility that positive simulated polypeptide-MHC-I interaction data will be highly valued.

Вариант осуществления 230. Энергонезависимый машиночитаемый носитель по варианту осуществления 216, где исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают представление одним или более процессорами в CNN данных для обучения CNN, дополнительно предусматривают исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: выполнения процедуры свертки; выполнения процедуры нелинейности (например, ReLu), выполнения процедуры объединения или субдискретизации; и выполнения процедуры классификации (полносвязный слой).Embodiment 230. The nonvolatile computer-readable medium of embodiment 216, wherein processor-executable instructions that, when executed by one or more processors, cause one or more processors to present data to a CNN for training the CNN, further provide processor-executable instructions that, when executed by one or more processors cause one or more processors to perform the following: perform a convolution procedure; performing a non-linearity procedure (eg, ReLu), performing a pooling or subsampling procedure; and performing a classification procedure (fully connected layer).

Вариант осуществления 231. Энергонезависимый машиночитаемый носитель по варианту осуществления 216, где GAN включает глубокую сверточную GAN (DCGAN).Embodiment 231. The non-volatile computer-readable medium of embodiment 216, wherein the GAN includes a deep convolutional GAN (DCGAN).

Вариант осуществления 232. Энергонезависимый машиночитаемый носитель по варианту осуществления 216, где первый критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 232. The nonvolatile computer-readable medium of embodiment 216, wherein the first stop criterion includes an estimate of a mean square error (MSE) function.

Вариант осуществления 233. Энергонезависимый машиночитаемый носитель по варианту осуществления 216, где второй критерий останова включает оценку функции среднеквадратичной ошибки (MSE).Embodiment 233. The nonvolatile computer-readable medium of embodiment 216, wherein the second stop criterion includes an estimate of a mean square error (MSE) function.

Вариант осуществления 234. Энергонезависимый машиночитаемый носитель по варианту осуществления 216, где третий критерий останова включает оценку функции площади под кривой (AUC).Embodiment 234. The nonvolatile computer-readable medium of embodiment 216, wherein the third stopping criterion includes an area under the curve (AUC) function estimate.

Вариант осуществления 235. Энергонезависимый машиночитаемый носитель для обучения генеративно-состязательной сети (GAN), причем энергонезависимый машиночитаемый носитель хранит исполняемые процессором команды, которые при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами следующего: обучения сверточной нейронной сети (CNN) теми же средствами, что и устройство по варианту 83 осуществления; представления набора данных в CNN, где набор данных содержит множество кандидатных взаимодействий полипептид-MHC-I, где CNN выполнена с возможностью классификации каждого из множества кандидатных взаимодействий полипептид-MHC-I как положительного или отрицательного взаимодействия полипептид-MHC-I; и синтеза полипептида, связанного с кандидатным взаимодействием полипептид-MHC-I, классифицируемого посредством CNN как положительное взаимодействие полипептид-MHC-I.Embodiment 235. A non-volatile computer-readable medium for training a generative adversarial network (GAN), wherein the non-volatile computer-readable medium stores processor-executable instructions that, when executed by one or more processors, causes one or more processors to perform the following: learning a convolutional neural network (CNN) by the same means that the device according to option 83 implementation; presenting the dataset to a CNN, where the dataset comprises a plurality of candidate polypeptide-MHC-I interactions, wherein the CNN is configured to classify each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and synthesizing a polypeptide associated with a candidate polypeptide-MHC-I interaction classified by the CNN as a positive polypeptide-MHC-I interaction.

Вариант осуществления 236. Энергонезависимый машиночитаемый носитель по варианту осуществления 235, где CNN подвергается обучению на основании одного или более параметров GAN, включающих одно или более из типа аллеля, длины аллеля, категории генерирования, сложности модели, скорости обучения или размера пакета.Embodiment 236. The nonvolatile computer-readable medium of embodiment 235, wherein the CNN is trained based on one or more GAN parameters including one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

Вариант осуществления 237. Энергонезависимый машиночитаемый носитель по варианту осуществления 236, где тип аллеля HLA включает один или более из HLA-A, HLA-B, HLA-C или их подтип. Embodiment 237. The non-volatile computer-readable medium of embodiment 236, wherein the HLA allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

Вариант осуществления 238. Энергонезависимый машиночитаемый носитель по варианту осуществления 236, где длина аллеля HLA составляет от приблизительно 8 до приблизительно 12 аминокислот.Embodiment 238. The non-volatile computer-readable medium of Embodiment 236, wherein the HLA allele length is from about 8 to about 12 amino acids.

Вариант осуществления 239. Энергонезависимый машиночитаемый носитель по варианту осуществления 236, где длина аллеля HLA составляет от приблизительно 9 до приблизительно 11 аминокислот.Embodiment 239. The non-volatile computer-readable medium of Embodiment 236, wherein the HLA allele length is from about 9 to about 11 amino acids.

Вариант осуществления 240. Полипептид, полученный при помощи энергонезависимого машиночитаемого носителя по варианту осуществления 235. Embodiment 240. The polypeptide obtained using the non-volatile computer-readable medium of Embodiment 235.

Вариант осуществления 241. Энергонезависимый машиночитаемый носитель по варианту осуществления 235, где полипептид представляет собой опухолеспецифический антиген.Embodiment 241. The nonvolatile computer-readable medium of Embodiment 235, wherein the polypeptide is a tumor-specific antigen.

Вариант осуществления 242. Энергонезависимый машиночитаемый носитель по варианту осуществления 235, где полипептид содержит аминокислотную последовательность, которая специфически связывается с белком MHC-I, кодируемым выбранным аллелем лейкоцитарного антигена человека (HLA).Embodiment 242. The nonvolatile computer-readable medium of embodiment 235, wherein the polypeptide comprises an amino acid sequence that specifically binds to the MHC-I protein encoded by the selected human leukocyte antigen (HLA) allele.

Вариант осуществления 243. Энергонезависимый машиночитаемый носитель по варианту осуществления 235, где положительные смоделированные данные взаимодействия полипептид-MHC-I, положительные реальные данные взаимодействия полипептид-MHC-I и отрицательные реальные данные взаимодействия полипептид-MHC-I связаны с выбранным аллелем. Embodiment 243. The nonvolatile computer-readable medium of embodiment 235, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with a selected allele.

Вариант осуществления 244. Энергонезависимый машиночитаемый носитель по варианту осуществления 243, где выбранный аллель выбран из группы, состоящей из A0201, A0202, A0203, B2703, B2705 и их комбинаций. Embodiment 244. The nonvolatile computer-readable medium of Embodiment 243, wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705, and combinations thereof.

Вариант осуществления 245. Энергонезависимый машиночитаемый носитель по варианту осуществления 235, где GAN включает глубокую сверточную GAN (DCGAN).Embodiment 245. The non-volatile computer-readable medium of embodiment 235, wherein the GAN includes a deep convolutional GAN (DCGAN).

Claims

1. A method for training a generative adversarial network (GAN), which includes:

a. obtaining positive and negative real data as a result of measuring the biological conditions of a person, animals, microorganisms, viruses or plants;

b. generating, by the computing device with the GAN generator, more and more accurate positive simulated data until the GAN discriminator classifies the positive simulated data as positive;

c. representing, by the computing device, positive simulated data, positive real data, and negative real data to a convolutional neural network (CNN) until the CNN classifies each type of data as positive or negative;

d. representing, by means of the computing device, positive real data and negative real data CNN to generate prediction estimates, and

e. determining by the computing device, based on the prediction estimates, whether the GAN is trained or not trained, and when the GAN is not trained, repeating steps b-d until a determination is made based on the prediction estimates that the GAN is trained.

2. The method of claim 1, wherein the positive simulated data, positive real data, and negative real data include biological data.

3. The method of claim 1, wherein positive simulated data includes positive simulated polypeptide-major histocompatibility complex class I (MHC-I) interaction data, positive real data includes positive real polypeptide-MHC-I interaction data, and negative real data includes negative real data of polypeptide-MHC-I interaction.

4. The method of claim 3, wherein generating increasingly accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies positive simulated polypeptide-MHC-I interaction data as real, comprises:

e. generating, by means of the GAN generator, in accordance with the GAN parameter set, a first simulated dataset containing simulated positive polypeptide-MHC-I interactions for the MHC allele;

f. combining the first simulated dataset with positive real polypeptide-MHC-I interactions for the MHC allele and negative real polypeptide-MHC-I interactions for the MHC allele to create a GAN training dataset;

g. determining, with a discriminator according to a decision boundary, whether the corresponding polypeptide-MHC-I interaction for the MHC allele in the GAN training dataset is simulated positive, real positive, or real negative;

h. an adjustment based on the accuracy of the determination by the discriminator, one or more of the GAN parameter set, or the decision boundary, and

i. repeat steps e through h until the first stopping criterion is met.

5. The method of claim 4, wherein presenting positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data to a convolutional neural network (CNN) until until CNN classifies the relevant polypeptide-MHC-I interaction data as positive or negative, provides:

j. generating by the GAN generator in accordance with the GAN parameter set a second simulated dataset containing simulated positive interactions of the polypeptide-MHC-I for the MHC allele;

k. combining a second simulated dataset, positive real-life polypeptide-MHC-I interactions for the MHC allele, and negative real-life polypeptide-MHC-I interactions for the MHC allele to create a CNN training dataset;

l. representing a CNN training dataset into a convolutional neural network (CNN);

m. classifying by the CNN according to the CNN parameter set the corresponding polypeptide-MHC-I interaction for the MHC allele in the CNN training data set as positive or negative;

n. an adjustment based on the classification accuracy by the CNN, one or more of the set of CNN parameters, and

o. repeating steps l-n until the second stopping criterion is met.

6. The method of claim 5, wherein presenting positive real polypeptide-MHC-I interaction data and negative real polypeptide-MHC-I interaction data in a CNN to generate predictive scores includes:

classification by CNN according to the CNN parameter set of the corresponding polypeptide-MHC-I interaction for the MHC allele as positive or negative.

7. The method of claim 6, wherein determining whether the GAN has been trained based on the prediction scores comprises determining the classification accuracy by the CNN, wherein when the classification accuracy satisfies the third stopping criterion, deriving the GAN and the CNN.

8. The method of claim 6, wherein determining, based on the prediction scores, whether the GAN has been trained comprises determining the classification accuracy by the CNN, wherein, when the classification accuracy does not satisfy the third stopping criterion, returning to step b.

9. The method of claim 4, wherein the GAN parameters include one or more of allele type, allele length, generation category, model complexity, learning rate, or batch size.

10. The method of claim 9, wherein the allele type includes one or more of HLA-A, HLA-B, HLA-C, or a subtype thereof.

11. The method of claim 9, wherein the allele length is from about 8 to about 12 amino acids.

12. The method of claim 11, wherein the allele length is from about 9 to about 11 amino acids.

13. The method according to p. 3, additionally providing:

representing a dataset in a CNN, where the dataset contains a plurality of candidate polypeptide-MHC-I interactions;

classifying by CNN each of the plurality of candidate polypeptide-MHC-I interactions as positive or negative polypeptide-MHC-I interactions; and

synthesizing a polypeptide from a candidate polypeptide-MHC-I interaction classified as a positive polypeptide-MHC-I interaction.

14. The method of claim 13 wherein the polypeptide is a tumor-specific antigen.

15. The method of claim 13, wherein the polypeptide contains an amino acid sequence that specifically binds to the MHC-I protein encoded by the selected MHC allele.

16. The method of claim 3, wherein positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data are associated with the selected allele.

17. The method of claim 16 wherein the selected allele is selected from the group consisting of A0201, A0202, A0203, B2703, B2705 and combinations thereof.

18. The method of claim 3, wherein generating progressively more accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies the positive simulated polypeptide-MHC-I interaction data as positive, involves evaluating the gradient descent expression for the generator GAN.

19. The method of claim 3, wherein generating increasingly accurate positive simulated polypeptide-MHC-I interaction data until the GAN discriminator classifies the positive simulated polypeptide-MHC-I interaction data as positive, comprises:

iteratively executing the GAN discriminator to increase the ability to assign high probability to positive real polypeptide-MHC-I interaction data, low probability to positive simulated polypeptide-MHC-I interaction data, and low probability to negative real polypeptide-MHC-I interaction data, and

iterative execution of the GAN generator to increase the likelihood that positive simulated polypeptide-MHC-I interaction data will score high.

20. The method of claim 3, wherein presenting positive simulated polypeptide-MHC-I interaction data, positive real polypeptide-MHC-I interaction data, and negative real polypeptide-MHC-I interaction data to a convolutional neural network (CNN) until until CNN classifies the relevant polypeptide-MHC-I interaction data as positive or negative, provides:

performing the convolution procedure;

execution of the non-linearity procedure (ReLU);

performing a merging or subsampling procedure, and

execution of the classification procedure (fully connected layer).

21. The method of claim 1, wherein the GAN includes a deep convolutional GAN (DCGAN).

22. The method of claim 8, wherein the first stopping criterion includes a mean square error (MSE) function estimate, the second stopping criterion includes a mean square error (MSE) function estimate, and the third stopping criterion includes an area under the curve (AUC) function estimate.

23. The method of claim 3, wherein the predictive score is the probability that positive real polypeptide-MHC-I interaction data is classified as positive polypeptide-MHC-I interaction data.

24. The method of claim 1, wherein determining, based on the prediction scores, whether the GAN has been trained comprises comparing one or more prediction scores to a threshold value.

25. The method of claim 1, further comprising deriving GANs and CNNs.