RU2743316C1 - Method for identification of binding sites of protein complexes - Google Patents

Method for identification of binding sites of protein complexes Download PDF

Info

Publication number
RU2743316C1
RU2743316C1 RU2020127322A RU2020127322A RU2743316C1 RU 2743316 C1 RU2743316 C1 RU 2743316C1 RU 2020127322 A RU2020127322 A RU 2020127322A RU 2020127322 A RU2020127322 A RU 2020127322A RU 2743316 C1 RU2743316 C1 RU 2743316C1
Authority
RU
Russia
Prior art keywords
protein complex
binding sites
protein
grid
predictions
Prior art date
Application number
RU2020127322A
Other languages
Russian (ru)
Inventor
Петр Анатольевич Попов
Игорь Андреевич Козловский
Original Assignee
Автономная некоммерческая образовательная организация высшего образования Сколковский институт науки и технологий
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Автономная некоммерческая образовательная организация высшего образования Сколковский институт науки и технологий filed Critical Автономная некоммерческая образовательная организация высшего образования Сколковский институт науки и технологий
Priority to RU2020127322A priority Critical patent/RU2743316C1/en
Application granted granted Critical
Publication of RU2743316C1 publication Critical patent/RU2743316C1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

FIELD: biochemistry.SUBSTANCE: invention relates to a method for identifying binding sites of a protein complex with a low-molecular-weight chemical compound based on structural information. According to the method, a tensor representation of the spatial structure of the protein complex is obtained, for which a three-dimensional voxel grid of the protein complex structure is obtained, where the channels of these voxels correspond to the densities of atoms that make up the protein complex, which is divided into smaller cubic grids, each of which is analyzed using a machine algorithm training to predict the center of the binding site of a low-molecular compound in the cells of the cube grid, each cell is assigned a real number from 0 to 1 where 1 corresponds to the maximum estimate of the prediction reliability. The results of the prediction of the centers of the binding sites for each cube grid are obtained with estimates of the prediction reliability, identification is performed amino acid residues of binding sites at a given distance relative to the predicted center of the binding site, the data obtained are grouped using predictive clustering algorithms about each input structure of the protein complex.EFFECT: identification of binding sites of protein complexes.4 cl, 7 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Настоящее изобретение относится к области медицины и вычислительной техники, в частности, к способу идентификации участков связывания белковых комплексов с низкомолекулярными химическими соединениями, на основе структурной и временной информации с использованием машинного обучения.The present invention relates to the field of medicine and computing, in particular, to a method for identifying binding sites of protein complexes with low molecular weight chemical compounds, based on structural and temporal information using machine learning.

УРОВЕНЬ ТЕХНИКИLEVEL OF TECHNOLOGY

Из уровня техники известен источник информации WO2002031510A1, опубл. 18.04.2002, который относится к области молекулярного распознавания или обнаружения участков прерывистого или конформационного связывания или эпитопов, соответствующих связывающей молекуле, в частности, в отношении взаимодействий белок-белок, белок-нуклеиновая кислота, нуклеиновая кислота-нуклеиновая кислота или биомолекула-лиганд. Способ обеспечивает синтетическую молекулярную библиотеку, позволяющую тестировать, идентифицировать, характеризовать или обнаруживать прерывающийся участок связывания, способный взаимодействовать со связывающей молекулой, Указанная библиотека включает множество тестовых объектов, причем каждый тестовый объект содержит по крайней мере один первый сегмент, отмеченный рядом со вторым сегментом, каждый сегмент может быть потенциальной единственной частью участка прерывистого связывания.The prior art known source of information WO2002031510A1, publ. 04/18/2002, which relates to the field of molecular recognition or detection of discontinuous or conformational binding sites or epitopes corresponding to a binding molecule, in particular with respect to protein-protein, protein-nucleic acid, nucleic acid-nucleic acid or biomolecule-ligand interactions. The method provides a synthetic molecular library capable of testing, identifying, characterizing, or detecting a discontinuous binding site capable of interacting with a binding molecule, the specified library includes a plurality of test objects, each test object containing at least one first segment, marked next to the second segment, each the segment may be the potential only part of the discontinuous binding site.

Из уровня техники известен источник информации WO2007148130A1, опубл. 27.12.2007, раскрывающий способ и систему для итеративного синтеза de novo, автоматизированный итеративный способ обнаружения лекарств и систему, обеспечивающую быструю идентификацию и синтез новых соединений. Способ итеративного синтеза de novo, включает стадии: The prior art known source of information WO2007148130A1, publ. 12/27/2007, disclosing a method and system for de novo iterative synthesis, an automated iterative drug discovery method and a system that provides rapid identification and synthesis of new compounds. The de novo iterative synthesis method includes the following stages:

a) выбор соединения-кандидата, имеющего желаемое фармакофорное соответствие начальной структуре; a) selection of a candidate compound having a desired pharmacophore correspondence to the initial structure;

б) синтез соединения-кандидата; b) synthesis of the candidate compound;

c) анализ синтезированного соединения и сравнение синтезированного соединения с начальной структурой, чтобы определить, обладает ли синтезированное соединение синтетически желательными свойствами, при этом, если синтезированное соединение не имеет синтетически желаемых свойств, стадию a) повторяют для нового соединения-кандидата, и если синтезированное соединение действительно имеет синтетически желаемые свойства, то выполняется стадия d); c) analyzing the synthesized compound and comparing the synthesized compound with the initial structure to determine if the synthesized compound has synthetically desired properties, wherein if the synthesized compound does not have synthetically desired properties, step a) is repeated for the new candidate compound, and if the synthesized compound indeed has synthetically desired properties, then step d) is performed;

d) повторение этапов с а) по в), на которых синтезированное соединение используется в качестве начальной структуры этапа а) до исчерпания.d) repeating steps a) to c), in which the synthesized compound is used as the initial structure of step a) until exhaustion.

Предлагаемое изобретение отличается от известных из уровня техники тем, что использует методы машинного обучения для обнаружения объектов, предлагаемый способ представляет трехмерную структуру белка в виде трехмерного изображения с каналами, соответствующими плотностям атомов различных типов. Предлагаемый способ исследует динамику и гибкость белков с помощью крупномасштабного анализа конформационных ансамблей. Обнаруженные конформации с наблюдаемым интересующим участком связывания затем могут быть использованы для подходов к разработке лекарств на основе структуры, таких как молекулярный стыковка и скрининг виртуального лиганда, а также для разработки лекарств de novo на основе структуры.The proposed invention differs from those known from the prior art in that it uses machine learning methods to detect objects, the proposed method represents a three-dimensional structure of a protein in the form of a three-dimensional image with channels corresponding to the densities of atoms of various types. The proposed method explores the dynamics and flexibility of proteins using large-scale analysis of conformational assemblies. The detected conformations with the observed binding site of interest can then be used for structure-based drug design approaches such as molecular docking and virtual ligand screening, as well as for structure-based de novo drug development.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Технической проблемой, на решение которой направлено заявленное изобретение, является создание способа идентификации новых участков связывания белковых комплексов (состоящих из одной или более молекул различной природы, но не менее одной белковой молекулы) с низкомолекулярными химическими соединениями, на основе структурной и временной информации с использованием машинного обучения в независимом пункте формулы. Дополнительные варианты реализации настоящего изобретения представлены в зависимых пунктах изобретения.The technical problem to be solved by the claimed invention is to create a method for identifying new binding sites of protein complexes (consisting of one or more molecules of different nature, but not less than one protein molecule) with low-molecular-weight chemical compounds, based on structural and temporal information using a machine learning in an independent claim. Additional embodiments of the present invention are presented in the dependent claims.

Технический результат заключается в идентификации участков связывания белковых комплексов с низкомолекулярными химическими соединениями. Технический результат также заключается в реализации предлагаемого способа.The technical result consists in identifying the sites of binding of protein complexes with low molecular weight chemical compounds. The technical result also consists in the implementation of the proposed method.

Заявленный результат достигается за счет осуществления способа идентификации участков связывания белковых комплексов с низкомолекулярными химическими соединениями, на основе структурной информации, с использованием методов машинного обучения, содержащий этапы, на которых: The claimed result is achieved by implementing a method for identifying binding sites of protein complexes with low-molecular-weight chemical compounds, based on structural information, using machine learning methods, containing the stages at which:

получают тензорное представление пространственной структуры белкового комплекса; obtain a tensor representation of the spatial structure of the protein complex;

осуществляют предобработку пространственной структуры белкового комплекса, в результате которой получают трехмерную воксельную сетку структуры белкового комплекса, где каналы данных вокселей соответствуют плотностям атомов, входящих в состав белкового комплекса;carrying out preprocessing of the spatial structure of the protein complex, as a result of which a three-dimensional voxel grid of the protein complex structure is obtained, where the channels of these voxels correspond to the densities of atoms that make up the protein complex;

трехмерную воксельную сетку структуры белкового комплекса разбивают на кубические сетки меньшего размера, покрывающие исходную трехмерную воксельную сетку;the three-dimensional voxel grid of the protein complex structure is divided into smaller cubic grids that cover the original three-dimensional voxel grid;

каждую кубическую сетку анализируют с помощью алгоритма машинного обучения для прогнозирования центра участка связывания низкомолекулярного соединения в ячейках кубической сетки;each cubic grid is analyzed using a machine learning algorithm to predict the center of the low-molecular-weight binding site in the cells of the cubic grid;

каждой ячейке в кубических сетках ставят в соответствие действительное число в диапазоне от 0 до 1, где 1 соответствует максимальной оценке достоверности предсказания; each cell in cubic grids is assigned a real number in the range from 0 to 1, where 1 corresponds to the maximum estimate of the prediction reliability;

получают результаты предсказания центров участков связывания для каждой кубической сетки с оценками достоверности предсказания, используя кластеризацию предсказаний для ячеек, соответствующих одному участку белкового комплекса;obtaining the results of prediction of the centers of binding sites for each cube grid with estimates of the reliability of predictions using clustering predictions for the cells corresponding to one site of the protein complex;

осуществляют идентификацию аминокислотных остатков участков связывания в заданном расстоянии относительно предсказанного центра участка связывания;carry out identification of amino acid residues of the binding sites at a given distance relative to the predicted center of the binding site;

полученные предсказания и идентифицированные аминокислотные остатки для набора различных конформаций белковых комплексов группируют с использованием алгоритмов кластеризации по предсказаниям по каждой входной структуре белкового комплекса.the obtained predictions and identified amino acid residues for a set of different conformations of protein complexes are grouped using predictive clustering algorithms for each input structure of the protein complex.

В частном варианте реализации предлагаемого способа, входные данные представляют собой набор упорядоченных по времени конформаций, при этом реализована кластеризация предсказаний от каждой конформации. Таким образом, получают тензорное представление нескольких атомарных структур белкового комплекса, полученных в разные промежутки времени, и для каждой такой структуры реализуют кластеризацию предсказаний.In a particular embodiment of the proposed method, the input data is a set of time-ordered conformations, while clustering predictions from each conformation is implemented. Thus, a tensor representation of several atomic structures of the protein complex obtained at different time intervals is obtained, and for each such structure, prediction clustering is implemented.

В частном варианте реализации предлагаемого способа низкомолекулярное соединение является лекарственным средством.In a private embodiment of the proposed method, the low molecular weight compound is a drug.

ОПИСАНИЕ ЧЕРТЕЖЕЙDESCRIPTION OF DRAWINGS

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:The implementation of the invention will be described in the following in accordance with the accompanying drawings, which are presented to clarify the essence of the invention and in no way limit the scope of the invention. The following drawings are attached to the application:

Фиг.1 иллюстрирует пример осуществления способа.1 illustrates an exemplary embodiment of the method.

Фиг. 2 иллюстрирует пример общей схемы вычислительного устройства. FIG. 2 illustrates an example of a general arrangement of a computing device.

Фиг. 3. Схематическое изображение рабочего процесса BiteNet. (A) Входная трехмерная структура белка представлена сеткой вокселей, где каналы соответствуют атомным плотностям. (B) Воксельная сетка разбита на кубические сетки фиксированного размера, которые будут загружены в нейронную сеть. (C) Каждая кубическая сетка обрабатывается трехмерной сверточной нейронной сетью для прогнозирования сайтов привязки в ячейках фиксированного размера. Ячейки в кубической сетке окрашены в соответствии с доверительной вероятностью от синего до красного. (D) Прогнозы, полученные для каждой кубической сетки и затем обработанные для вывода центра сайта связывания (красная сфера), его вероятностной оценки и аминокислотных остатков в пределах 6Å от прогнозируемого центра (синие палочки). Совместно кристаллизованный лиганд показан серыми полосками.FIG. 3. Schematic representation of the BiteNet workflow. (A) The input 3D structure of the protein is represented by a voxel grid, where the channels correspond to atomic densities. (B) Voxel mesh is split into fixed size cubic meshes that will be loaded into the neural network. (C) Each cubic grid is processed by a 3D convolutional neural network to predict anchor sites in fixed-sized cells. The cells in the cubic grid are colored according to the confidence level from blue to red. (D) Predictions obtained for each cube grid and then processed to derive the center of the binding site (red sphere), its probabilistic estimate, and amino acid residues within 6 Å of the predicted center (blue rods). The co-crystallized ligand is shown with gray stripes.

Фиг. 4. Прогнозы BiteNet для мономерной и олигомерной структуры рецептора P2X3. (A) Структура мономера с ортостерическим лигандом и катион-ионом (слева) и прогнозы BiteNet для структуры мономера (справа). (B) Структура мономера с аллостерическим лигандом, катион-ионом и этиленгликолем (слева) и прогнозы BiteNet для этой структуры (справа). (C) Связанная с агонистом (слева) и связанная с антагонистом (справа) структуры тримера P2X3. (D) Прогнозы BiteNet для связанных с агонистами (слева) и антагонистических (справа) структур тримера P2X3. Ортостерические и аллостерические лиганды показаны красными и пурпурными палочками соответственно. катионные ионы показаны темно-зелеными сферами, а молекулы этиленгликоля показаны фиолетовыми полосками. Прогнозы BiteNet для этих молекул показаны в виде сфер с соответствующим цветом.FIG. 4. BiteNet predictions for the monomeric and oligomeric structure of the P2X3 receptor. (A) Monomer structure with orthosteric ligand and cation ion (left) and BiteNet predictions for monomer structure (right). (B) Monomer structure with allosteric ligand, cation ion and ethylene glycol (left) and BiteNet predictions for this structure (right). (C) Agonist-linked (left) and antagonist-linked (right) of the P2X3 trimer structure. (D) BiteNet predictions for agonist-related (left) and antagonist (right) structures of the P2X3 trimer. Orthosteric and allosteric ligands are shown with red and purple rods, respectively. cationic ions are shown with dark green spheres and ethylene glycol molecules are shown with purple stripes. BiteNet's predictions for these molecules are shown as spheres with the corresponding color.

Фиг. 5. (A) Ассиметрическая димерная структура киназного домена EGFR. Ортостерические и аллостерические лиганды показаны желтыми и пурпурными палочками соответственно, ион Mg показан зеленой сферой. (B) Прогнозы BiteNet для асимметричного димера, предсказанные центры для лигандов показаны в виде сфер с соответствующим цветом. (C) Прогнозы BiteNet, полученные для траектории минимизации энергии. Нормализованная энергия показана синей штрихпунктирной линией, среднеквадратичное отклонение по отношению к несвязанной конформации сайта аллотерического связывания показано фиолетовой пунктирной линией, оценка вероятности BiteNet для ортостерических и аллостерических сайтов связывания показаны пунктирным оранжевым и сплошным пурпурным цветом. линии соответственно. Нормированная энергия для 1 и 0 соответствует --7,76969e+5 кДж / моль и -8,80655e+5 кДж / моль соответственно. (D) Начальная и конечная конформации траектории минимизации вместе с прогнозами BiteNet.FIG. 5. (A) Asymmetric dimeric structure of the EGFR kinase domain. Orthosteric and allosteric ligands are shown with yellow and purple rods, respectively, the Mg ion is shown with a green sphere. (B) BiteNet predictions for asymmetric dimer, predicted centers for ligands are shown as spheres with corresponding colors. (C) BiteNet predictions obtained for the energy minimization trajectory. Normalized energy is shown in blue dash-dotted line, standard deviation with respect to unbound conformation of the alloteric binding site is shown as purple dashed line, BiteNet likelihood estimates for orthosteric and allosteric binding sites are shown in dashed orange and solid magenta. lines respectively. The normalized energies for 1 and 0 correspond to --7.76969e + 5 kJ / mol and -8.80655e + 5 kJ / mol, respectively. (D) The initial and final conformations of the minimization trajectory along with the BiteNet predictions.

Фиг. 6. Прогнозы BiteNet для моделирования молекулярной динамики аденозинового рецептора A2A. (A, D) Исходные конформации A2A без лиганда и связанные с агонистом соответственно. Оранжевые облака точек соответствуют предсказаниям BiteNet канонического ортостерического сайта связывания в A2A, в то время как пурпурное облако точек соответствует предсказаниям BiteNet гипотетического сайта связывания, наблюдаемым во время моделирования. (B, E) Оценки вероятности BiteNet для ортостерического сайта связывания (пунктирная оранжевая линия), аллостерического сайта связывания (пурпурная сплошная линия) и RMSD по отношению к средней конформации липидного хвоста на основе окна (пунктирная фиолетовая линия), вычисленные для траектории молекулярной динамики. (C, F) Конформации A2A, соответствующие наивысшим оценкам вероятности BiteNet для гипотетического сайта связывания. Связывание липидного хвоста с гипотетическим сайтом связывания показано зелеными палочками.FIG. 6. BiteNet predictions for modeling the molecular dynamics of the A2A adenosine receptor. (A, D) Initial A2A conformations without ligand and associated with agonist, respectively. The orange point clouds correspond to the BiteNet predictions of the canonical orthosteric binding site in A2A, while the magenta point clouds correspond to the BiteNet predictions of the hypothetical binding site observed during simulations. (B, E) BiteNet likelihood estimates for orthosteric binding site (dashed orange line), allosteric binding site (magenta solid line), and RMSD relative to the mean window-based lipid tail conformation (dashed purple line) calculated for the molecular dynamics trajectory. (C, F) A2A conformations corresponding to the highest BiteNet probability estimates for the hypothetical binding site. The binding of the lipid tail to the hypothetical binding site is shown with green rods.

Фиг. 7. (А) Производительность методов прогнозирования сайтов связывания в тестах COACH420 и HOLO4K. All и Top - N соответствуют средней точности, рассчитанной с учетом всех прогнозов и N верхних прогнозов, соответственно, где N - количество истинных сайтов связывания в белке. Светлые столбики соответствуют характеристикам BiteNet, когда истинно положительный сайт связывания определен, как при обучении. Черные линии соответствуют производительности BiteNet по всем тестам. (B) Время, затраченное fpocket, P2Rank и BiteNet на анализ конформаций 1, 10, 1000 и 10000 белка, имеющего около 2000 атомов. Вычисленное затраченное время представляет собой среднее значение 10 независимых прогонов.FIG. 7. (A) Performance of binding site prediction methods in COACH420 and HOLO4K tests. All and Top - N correspond to the average accuracy calculated taking into account all predictions and N upper predictions, respectively, where N is the number of true binding sites in the protein. The light bars represent the BiteNet performance when a true positive binding site is identified, as in training. The black lines represent BiteNet's performance in all tests. (B) Time taken by fpocket, P2Rank and BiteNet to analyze the conformations of 1, 10, 1000, and 10,000 of a protein with about 2000 atoms. The calculated elapsed time is the average of 10 independent runs.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения. Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов. Используя преимущества методов машинного обучения для обнаружения объектов, предлагаемый способ представляет трехмерную структуру белка в виде трехмерного изображения с каналами, соответствующими плотностям атомов, входящих в состав белковых молекул из белкового комплекса. Предлагаемый способ позволяет идентифицировать участки связывания низкомолекулярных соединений в белковых комплексах с учетом гибкой и динамической природы белковых комплексов посредством анализа конформационных ансамблей. Обнаруженные конформации с наблюдаемым интересующим участком связывания могут быть использованы для подходов к разработке лекарств на основе структуры, включая, но не ограничиваясь такими методами как молекулярный докинг и виртуальный скрининг молекул, а также для разработки лекарств de novo на основе структурной информации. In the following detailed description of an implementation of the invention, numerous implementation details are set forth to provide a thorough understanding of the present invention. However, it will be obvious to those skilled in the art how the present invention can be used, with or without these implementation details. In other instances, well-known techniques, procedures, and components have not been described in detail so as not to obscure the details of the present invention. In addition, it will be clear from the above description that the invention is not limited to the above implementation. Numerous possible modifications, changes, variations and substitutions, while retaining the spirit and form of the present invention, will be apparent to those skilled in the art. Using the advantages of machine learning methods for object detection, the proposed method represents the three-dimensional structure of a protein in the form of a three-dimensional image with channels corresponding to the densities of atoms that make up protein molecules from the protein complex. The proposed method makes it possible to identify the binding sites of low molecular weight compounds in protein complexes taking into account the flexible and dynamic nature of protein complexes by analyzing conformational assemblies. The detected conformations with the observed binding site of interest can be used for structure-based drug design approaches, including but not limited to molecular docking and virtual molecular screening, and de novo drug design based on structural information.

Под белковым комплексом понимают одну или несколько молекул, находящихся друг относительно друга на расстоянии физического взаимодействия. Типы молекул, входящих в такой комплекс, могут быть различными (одна или несколько молекул полипептидов, нуклеиновые кислоты (ДНК, РНК), низкомолекулярные химические соединения, вода, липиды, ионы и пр.), при этом в методе анализируются молекулы только белковой природы.A protein complex is understood to mean one or more molecules located relative to each other at a distance of physical interaction. The types of molecules included in such a complex can be different (one or more polypeptide molecules, nucleic acids (DNA, RNA), low-molecular-weight chemical compounds, water, lipids, ions, etc.), while only protein molecules are analyzed in the method.

Предлагаемый способ идентификации участков связывания белковых комплексов с низкомолекулярными химическими соединениями, на основе структурной и временной информации выполняется на вычислительном устройстве и представлен на фиг.1.The proposed method for identifying binding sites of protein complexes with low-molecular-weight chemical compounds, based on structural and temporal information, is performed on a computer and is shown in Fig. 1.

Для реализации предлагаемого изобретения была обучена нейронная сеть. To implement the proposed invention, a neural network was trained.

получают тензорное представление пространственных структур белкового комплекса (101). obtain a tensor representation of the spatial structures of the protein complex (101).

осуществляют предобработку пространственных структур белкового комплекса, в результате которой получают трехмерную воксельную сетку структур белкового комплекса, где каналы данных вокселей соответствуют плотностям атомов, входящих в состав белкового комплекса (102).
Изображения белковых комплексов представляют, как 3D-изображения с тремя измерениями (шириной, высотой и длиной) и 11 каналами для каждого вокселя, где каналы соответствуют плотностям атомов, входящих в состав белкового комплекса (процесс вокселизации).
carry out preprocessing of the spatial structures of the protein complex, as a result of which a three-dimensional voxel grid of the structures of the protein complex is obtained, where the channels of these voxels correspond to the densities of atoms that make up the protein complex (102).
Protein complex images are presented as 3D images with three dimensions (width, height and length) and 11 channels for each voxel, where the channels correspond to the densities of atoms that make up the protein complex (voxelization process).

трехмерную воксельную сетку структуры белкового комплекса разбивают на кубические сетки меньшего размера, покрывающие исходную трехмерную воксельную сетку (103).The three-dimensional voxel grid of the protein complex structure is divided into smaller cubic grids that cover the original three-dimensional voxel grid (103).

Для реализации способа использовали кубическую сетку вокселей из 64х64х64 вокселей размером 1Åх1Åх1Å (1Å - ангстрем). Если белок превышает 64 Å в любом из измерений, то используют несколько кубических сеток вокселей, чтобы представить его. To implement the method, a cubic voxel grid of 64x64x64 voxels of 1Åx1Åx1Å size (1Å - angstroms) was used. If the protein exceeds 64 Å in any of the dimensions, then several cubic voxel grids are used to represent it.

Каждую кубическую сетку анализируют с помощью алгоритма машинного обучения для прогнозирования центра участка связывания низкомолекулярного соединения в ячейках кубической сетки; (104).Each cubic grid is analyzed using a machine learning algorithm to predict the center of the low molecular weight binding site in the cells of the cubic grid; (104).

Каждой ячейке в кубических сетках ставят в соответствие действительное число в диапазоне от 0 до 1, где 1 соответствует максимальной оценке достоверности предсказания участка связывания белкового комплекса с низкомолекулярным соединением;, а 0 - отсутствию предсказания (105).Each cell in cubic grids is assigned a real number in the range from 0 to 1, where 1 corresponds to the maximum estimate of the reliability of the prediction of the binding site of the protein complex with a low-molecular-weight compound; and 0 corresponds to the absence of prediction (105).

Результатом обработки кубических сеток являются 4-ех мерные тензоры (в реализации способа тензоры размерности 8х8х8х4), где первые три измерения соответствуют координатам ячейки относительно кубической сетки вокселей (в реализации способа область 8х8х8 вокселей), а четыре числа последнего измерения соответствуют оценке достоверности предсказания участка связывания в ячейке и его декартовым координатам.The result of processing cubic grids are 4-dimensional tensors (in the implementation of the method, tensors of dimension 8x8x8x4), where the first three dimensions correspond to the coordinates of the cell relative to the cubic grid of voxels (in the implementation of the method, the area of 8x8x8 voxels), and four numbers of the last dimension correspond to the assessment of the reliability of the prediction of the binding site in a cell and its Cartesian coordinates.

Для получения более точного результата были выбраны следующие гиперпараметры модели сверточной нейронной сети. Размер кубической сетки равен 64 вокселям, 1: 0Å для размера вокселя, 4: 0Å для ограничения плотности, 48 для параметра шага, 16 для размера мини-пакета, 1e-5 и 10.0 для параметров и соответственно. Среди этих параметров размер вокселя имеет большое влияние на скорость вычислений, требуется в 2 раза больше времени для обучения и применения модели с размером вокселя 0: 8 Å по сравнению с размером вокселя 1: 0 Å. С другой стороны, модель, соответствующая размеру вокселя 2: 0 Å, работает быстрее, хотя и менее точна. To obtain a more accurate result, the following hyperparameters of the convolutional neural network model were selected. The cubic grid size is 64 voxels, 1: 0Å for the voxel size, 4: 0Å for the density constraint, 48 for the step parameter, 16 for the minibatch size, 1e-5 and 10.0 for the parameters and, respectively. Among these parameters, the voxel size has a large impact on the computation speed, it takes twice as long to train and apply a model with a voxel size of 0: 8 Å compared to a voxel size of 1: 0 Å. On the other hand, the model corresponding to a voxel size of 2: 0 Å is faster, although less accurate.

В реализации способа используется нейронная сеть, которая состоит из десяти трехмерных сверточных слоев: Conv3D32, Conv3Dpool 32, Conv3D32, Conv3D32, Conv3Dpool 32, Conv3D64, Conv3D64, Conv3Dpool 64, Conv3D128, Conv3D4, где номер индекса обозначает количество конволюционных фильтров. Были использованы ядра размером (3; 3; 3) для каждого слоя, для слоев объединения был использован шаг 2, а также функцию пакетной нормализации и функции активации выпрямленного линейного блока (ReLu) для всех слоев, кроме последнего. Наконец, использовали сигмоидную функцию активации, чтобы получить оценку достоверности предсказания ^s в диапазоне (0,1) и относительные координаты ^ x, ^ y, ^ z предсказанного центра участка связывания относительно клетки.In the implementation of the method, a neural network is used, which consists of ten three-dimensional convolutional layers: Conv3D32, Conv3Dpool 32, Conv3D32, Conv3D32, Conv3Dpool 32, Conv3D64, Conv3D64, Conv3Dpool 64, Conv3D128, Conv3Dfourwhere the index number indicates the number of convolutional filters. Kernels of size (3; 3; 3) were used for each layer, step 2 was used for join layers, as well as the batch normalization function and the rectified linear unit activation function (ReLu) for all layers except the last one. Finally, a sigmoid activation function was used to obtain an estimate of the prediction confidence ^ s in the range (0,1) and the relative coordinates ^ x, ^ y, ^ z of the predicted center of the binding site relative to the cell.

Затем декартовы координаты вычисляются согласно формуле (2):Then the Cartesian coordinates are calculated according to the formula (2):

Figure 00000001
Figure 00000001

где csize и vsize соответствуют размеру ячейки и вокселя соответственно, а Ox, Oy, Oz - декартовы координаты начала кубической сетки.where c size and v size correspond to the cell and voxel sizes, respectively, and O x , O y , O z are the Cartesian coordinates of the beginning of the cubic grid.

В реализации способа используется настраиваемая функция потерь, которая содержит три термина (3):In the implementation of the method, a tunable loss function is used, which contains three terms (3):

Figure 00000002
Figure 00000002

где Ncells - количество ячеек в единой кубической сетке, si и ^si - истинные (0 или 1) и прогнозируемые оценки вероятности ячейки, xi; уi; zi и ^xi; ^ yi ^ zi - истинная и предсказанная координаты i-й ячейки соответственно, а L2 соответствует члену регуляризации. Следовательно, первый и второй члены направлены на штрафы за неправильное предсказание оценки вероятности и центра участка связывания соответственно. Второй член умножается на истинную оценку вероятности (0 или 1), чтобы учесть только релевантные прогнозы. Третий член - это член регуляризации L2 для параметров нейронной сети. Коэффициенты λ= 5 и γ= 1e-5 являются весами штрафных членов.where N cells - the number of cells in a single cubic grid, s i and ^ s i - true (0 or 1) and predicted estimates of the probability of a cell, x i ; at i ; z i and ^ x i ; ^ y i ^ z i - true and predicted coordinates of the i-th cell, respectively, and L2 corresponds to the regularization term. Therefore, the first and second terms are directed to misprediction penalties for the probability estimate and the center of the binding site, respectively. The second term is multiplied by the true probability estimate (0 or 1) to account for only relevant predictions. The third term is the L2 regularization term for the neural network parameters. The coefficients λ = 5 and γ = 1e-5 are the weights of the penalty terms.

На следующем этапе шаге применяется постобработка полученных результатов. Сначала отбрасывают все прогнозы с вероятностью ^s <sthreshold. Остальные прогнозы затем обрабатываются методом подавления немаксимумов. Выбирается лучший прогноз с точки зрения оценки достоверности предсказания в качестве начального элемента кластера и помещаются все прогнозы с центрами участка связывания ближе, чем d<dthreshold к центру лучшего прогноза. Затем выбирается второй лучший прогноз в качестве начального элемента для следующего кластера и повторяется описанную выше процедуру до тех пор, пока все прогнозы не будут кластеризованы. In the next step, post-processing of the results is applied. First, all predictions with probability ^ s <s threshold are discarded. The rest of the predictions are then processed by the non-high suppression method. The best prediction is selected from the point of view of assessing the reliability of the prediction as the initial element of the cluster and all predictions with the centers of the binding site are placed closer than d <d threshold to the center of the best prediction. Then the second best forecast is selected as the starting element for the next cluster and the above procedure is repeated until all the forecasts are clustered.

Наконец, в качестве окончательных прогнозов оставляют только начальные элементы Ntop с точки зрения оценок достоверности предсказания.Finally, only the initial elements N top are retained as final predictions in terms of predictive confidence estimates.

Получают результаты предсказания центров участков связывания для каждой кубической сетки с оценками достоверности предсказания, используя кластеризацию предсказаний для ячеек, соответствующих одному участку белкового комплекса (106).The results of prediction of the sites of binding sites for each cubic grid with estimates of the prediction reliability are obtained using clustering predictions for the cells corresponding to one site of the protein complex (106).

Таким образом, входом является пространственные структуры белкового комплекса, а на выходе - центры предсказанных участков связывания вместе с оценками достоверности предсказаний. Thus, the input is the spatial structures of the protein complex, and the output is the centers of the predicted binding sites together with the estimates of the reliability of the predictions.

Осуществляют идентификацию аминокислотных остатков участков связывания в заданном расстоянии относительно предсказанного центра участка связывания (107).The identification of amino acid residues of the binding sites at a given distance relative to the predicted center of the binding site is performed (107).

В реализации способа идентифицируют аминокислотные остатки участка связывания в пределах 6Å соседства по отношению к предсказанному центру. In the implementation of the method, amino acid residues of the binding site are identified within the 6Å neighborhood with respect to the predicted center.

полученные предсказания и идентифицированные аминокислотные остатки для набора различных конформаций белковых комплексов группируют с использованием алгоритмов кластеризации по предсказаниям по каждой входной структуре белкового комплекса (108).The obtained predictions and identified amino acid residues for a set of different conformations of protein complexes are grouped using predictive clustering algorithms for each input structure of the protein complex (108).

Используют методы кластеризации в трехмерном пространстве. В реализации способа демонстрируется три различных подхода кластеризации: алгоритм кластеризации среднего сдвига (MSCA), алгоритм кластеризации на основе плотности (DBSCAN) и агломеративный иерархический алгоритм. Первые два подхода в основном применяются для набора точек в евклидовом пространстве, последний подход может применяться также для набора аминокислотных остатков, образующих предсказанный участок связывания.They use clustering techniques in three-dimensional space. In the implementation of the method, three different clustering approaches are demonstrated: the mean shift clustering algorithm (MSCA), the density-based clustering algorithm (DBSCAN), and the hierarchical agglomerative algorithm. The first two approaches are mainly used for a set of points in the Euclidean space, the last approach can also be used for a set of amino acid residues that form the predicted binding site.

Присваивают по две оценки каждому кластеру. Первая оценка - это сумма максимальной оценки вероятности кластера в каждой конформации, усредненная по конформационному ансамблю. Для второй оценки средняя сумма оценок вероятностей (больше, чем cluster_score_threshold_step = 0.1) кластера вычисляется для каждой конформации. Затем полученные суммы усредняются по общему количеству конформаций в ансамбле. Использование нескольких подходов к кластеризации обусловлено тем, что результаты кластеризации могут сильно различаться в зависимости от алгоритма кластеризации и различных параметров для них. Two scores are assigned to each cluster. The first estimate is the sum of the maximum estimate of the cluster probability in each conformation, averaged over the conformational ensemble. For the second score, the average sum of the probability scores (greater than cluster_score_threshold_step = 0.1) of the cluster is calculated for each conformation. Then the resulting sums are averaged over the total number of conformations in the ensemble. The use of several approaches to clustering is due to the fact that clustering results can vary greatly depending on the clustering algorithm and various parameters for them.

На Фиг. 2 далее будет представлена общая схема вычислительного устройства (200), обеспечивающего обработку данных, необходимую для реализации заявленного решения. FIG. 2, a general diagram of a computing device (200) that provides data processing necessary for the implementation of the claimed solution will be presented below.

В общем случае устройство (200) содержит такие компоненты, как: один или более процессоров (201), по меньшей мере одну память (202), средство хранения данных (203), интерфейсы ввода/вывода (204), средство В/В (205), средства сетевого взаимодействия (206).In the general case, the device (200) contains components such as: one or more processors (201), at least one memory (202), data storage means (203), input / output interfaces (204), I / O means ( 205), networking tools (206).

Процессор (201) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (200) или функциональности одного или более его компонентов. Процессор (201) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (202).The device processor (201) performs the basic computational operations required for the operation of the device (200) or the functionality of one or more of its components. The processor (201) executes the necessary computer-readable instructions contained in the main memory (202).

Память (202), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал. Memory (202), as a rule, is made in the form of RAM and contains the necessary software logic that provides the required functionality.

Средство хранения данных (203) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (203) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.The data storage medium (203) can be performed in the form of HDD, SSD disks, raid array, network storage, flash memory, optical information storage devices (CD, DVD, MD, Blue-Ray disks), etc. The means (203) allows performing long-term storage of various types of information, for example, the aforementioned files with user data sets, a database containing records of time intervals measured for each user, user identifiers, etc.

Интерфейсы (204) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.Interfaces (204) represent standard means for connecting and working with the server side, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS / 2, Lightning, FireWire, etc.

Выбор интерфейсов (204) зависит от конкретного исполнения устройства (200), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.The choice of interfaces (204) depends on the specific implementation of the device (200), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.

В качестве средств В/В данных (205) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.As means of I / O data (205) in any embodiment of a system that implements the described method, a keyboard should be used. The hardware design of the keyboard can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a separate device connected to a desktop computer, server or other computer device. In this case, the connection can be either wired, in which the connecting cable of the keyboard is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports. In addition to the keyboard, I / O data can also include: joystick, display (touch screen), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.

Средства сетевого взаимодействия (206) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (205) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.Networking means (206) are selected from a device that provides network reception and transmission of data, for example, Ethernet card, WLAN / Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc. The means (205) provide the organization of data exchange via a wired or wireless data transmission channel, for example, WAN, PAN, LAN, Intranet, Internet, WLAN, WMAN or GSM.

Компоненты устройства (200) сопряжены посредством общей шины передачи данных (210).The components of the device (200) are interfaced through a common data bus (210).

Нижеследующие примеры осуществления способа приведены в целях раскрытия характеристик настоящего изобретения и их не следует рассматривать как каким-либо образом ограничивающие объем изобретения.The following examples of the implementation of the method are given in order to disclose the characteristics of the present invention and should not be construed as in any way limiting the scope of the invention.

Чтобы продемонстрировать применимость разработанного способа (реализация которого далее обозначается как BiteNet), авторы рассмотрели несколько наиболее сложных задач обнаружения сайтов связывания, включающие три фармакологические мишени: рецептор P2X3 из семейства АТФ-управляемых катионных каналов, рецептор эпидермального фактора роста из семейства киназ и рецептор аденозина A2A из семейства рецепторов, сопряженных с G белком.To demonstrate the applicability of the developed method (the implementation of which is hereinafter referred to as BiteNet), the authors considered several of the most difficult problems of detecting binding sites, including three pharmacological targets: the P2X3 receptor from the family of ATP-gated cation channels, the epidermal growth factor receptor from the kinase family, and the adenosine A2A receptor. from the family of G protein coupled receptors.

Схематическое изображение рабочего процесса BiteNet приведено на Фиг. 3.A schematic representation of the BiteNet workflow is shown in FIG. 3.

Пример 1. Пространственно-временное прогнозирование сайтов связывания в катионном канале, управляемом АТФ.Example 1. Spatio-temporal prediction of binding sites in a cation channel driven by ATP.

Катионный канал, управляемый АТФ, образованный рецептором P2X3, опосредует различные физиологические процессы и представляет собой фармакологическую мишень для модулирования гипертонии, воспаления, восприятия боли и других состояний. Канал состоит из трех одинаковых мономеров, пересекающих мембрану, а ортостерический АТФ-связывающий сайт состоит из аминокислотных остатков двух мономеров (см. Фиг. 4С). Создание лекарств, нацеленных на ортостерический сайт связывания, затруднено из-за сильно поляризованного АТФ-специфического интерфейса, с другой стороны, аллостерические лиганды, нацеленные на межбелковые взаимодействия, формируют многообещающую возможность для открытия лекарств. Недавно для рецепторов P2X3 и P2X7 был открыт аллостерический сайт связывания, образованный двумя мономерами канала. Авторы применили BiteNet к АТФ-связанным и (AF-219)-связанным структурам тримерного комплекса, образованного мономерами P2X3 (идентификаторы PDB: 5SVK, 5YVE), а также к структурам одиночных мономеров. BiteNet правильно идентифицировал ортостерический сайт связывания в АТФ-связанной структуре и аллостерический сайт связывания в (AF-219) -связанной структуре тримера, но не в структурах мономеров (см. Фиг. 4). Интересно, что BiteNet также предсказал центр для сайта связывания АТФ, расположенный на противоположном конце молекулы АТФ, с более низкой оценкой вероятности. Чтобы убедиться, что это не артефакт вращательной дисперсии модели, было сгенерировано 50 копий при помощи вращения мономера вокруг 10 осей на углы π/3, 2 π /3, π , 4 π /3 и 5 π /3, и далее усредняли полученные прогнозы. Как видно из Фиг.4D, хотя абсолютные значения оценок вероятности различаются в зависимости от мономеров, во всех случаях BiteNet правильно определяет аллостерический сайт связывания для тримерного комплекса, а не для мономера. Обратите внимание, что АТФ является эндогенным агонистом, а AF-219 - антагонистом тримерного P2X. Связанные с агонистом и связанные с антагонистом конформации различаются, особенно в областях ортостерических и аллостерических участков связывания (Фиг. 4 C,D). Следовательно, BiteNet чувствителен к конформационным изменениям, так как не предсказывает сайт связывания АТФ в (AF-219) -связанной структуре и наоборот. Интересно, что, несмотря на отсутствие сайта связывания в структуре мономера, BiteNet предсказал различные сайты связывания с относительно высокими показателями в структурах мономера. Более пристальный взгляд на доступные трехмерные структуры рецепторов P2X3 выявил катионные ионы (Mg, Na, Ca) и молекулы этиленгликоля, соответствующие этим прогнозам (идентификаторы PDB: 5YVE, 5SVS, 5SVT, 5SVJ, 5SVR, 5SVQ, 5SVP, 5SVM, 5SVL, 6AH4, 6AH5).The ATP-driven cation channel formed by the P2X3 receptor mediates various physiological processes and represents a pharmacological target for modulating hypertension, inflammation, pain perception, and other conditions. The channel consists of three identical monomers crossing the membrane, and the orthosteric ATP-binding site consists of the amino acid residues of the two monomers (see Fig. 4C). The development of drugs targeting the orthosteric binding site is difficult due to the highly polarized ATP-specific interface; on the other hand, allosteric ligands targeting protein-protein interactions represent a promising drug discovery opportunity. Recently, an allosteric binding site formed by two channel monomers has been discovered for the P2X3 and P2X7 receptors. The authors applied BiteNet to ATP-bound and (AF-219) -bound structures of a trimeric complex formed by P2X3 monomers (PDB identifiers: 5SVK, 5YVE), as well as to structures of single monomers. BiteNet correctly identified an orthosteric binding site in the ATP-linked structure and an allosteric binding site in the (AF-219) -linked trimer structure, but not in the monomer structures (see Fig. 4). Interestingly, BiteNet also predicted a center for the ATP binding site, located at the opposite end of the ATP molecule, with a lower probability score. To make sure that this is not an artifact of the rotational variance of the model, 50 copies were generated by rotating the monomer around 10 axes at the angles π / 3, 2 π / 3, π, 4 π / 3, and 5 π / 3, and then averaging the obtained predictions ... As seen in FIG. 4D, although the absolute values of the likelihood scores differ depending on the monomers, in all cases BiteNet correctly identifies the allosteric binding site for the trimeric complex rather than the monomer. Note that ATP is an endogenous agonist and AF-219 is a trimeric P2X antagonist. Agonist-associated and antagonist-associated conformations differ, especially in the regions of orthosteric and allosteric binding sites (Fig. 4 C, D). Therefore, BiteNet is sensitive to conformational changes, since it does not predict the ATP binding site in the (AF-219) -linked structure and vice versa. Interestingly, despite the absence of a binding site in the monomer structure, BiteNet predicted various binding sites with relatively high rates in the monomer structures. A closer look at the available three-dimensional structures of P2X3 receptors revealed cationic ions (Mg, Na, Ca) and ethylene glycol molecules corresponding to these predictions (PDB identifiers: 5YVE, 5SVS, 5SVT, 5SVJ, 5SVR, 5SVQ, 5SVP, 5SVM, 5SVL, 6AH4, 6AH5).

Пример 2. Пространственно-временное прогнозирование сайтов связывания в рецепторе эпидермального фактора роста (EGFR).Example 2. Spatio-temporal prediction of binding sites in the epidermal growth factor receptor (EGFR).

EGFR представляет собой трансмембранный белок из семейства тирозинкиназ. Сверхэкспрессия EGFR ассоциирована с различными типами опухолей. Хотя существуют ингибиторы EGFR, нацеленные на ортостерический сайт связывания киназного домена, белки, обнаруженные в раковых клетках, часто имеют аминокислотные замены, которые делает их нечувствительными к таким ингибиторам. Существуют также мутантно-селективные необратимые ингибиторы, которые ковалентно связываются с аминокислотным остатком Cys797, однако некоторые рецепторы мутантного типа также обладают другим аминокислотным остатком в 797 положении. Недавно была обнаружена трехмерная структура варианта киназного домена L858R / T790M EGFR, связанного с мутант-селективным аллостерическим ингибитором EAI001 (PDB ID: 5d41). Было показано, что EAI001 связывается только с одним мономером, что приводит к неполному ингибированию, но и снижению аутофосфорилирования в клетке. Соответственно, трехмерная структура представляет собой асимметричный димер с одним мономером, связанным как с ортостерическими, так и с аллостерическими лигандами (аналог АТФ аденилимидодифосфат (AMP-PNP) и EAI001, соответственно), в то время как другой мономер связывается только с AMP-PNP. BiteNet успешно идентифицировал как ортостерические, так и аллостерические сайты связывания в одном мономере (цепь A) и только первый в другом мономере (цепь B). Отметим, что в обучающей выборке была еще одна структура киназного домена EGFR (PDB ID: 5UG9), однако она содержит только ортостерический лиганд вдали от аллостерического сайта связывания. Хотя этот и предыдущие примеры ясно демонстрируют способность BiteNet обнаруживать сайты связывания в holo конформациях, на практике такие конформации могут быть неизвестны, особенно когда есть задача обнаружить новые сайты связывания. Чтобы оценить способность BiteNet обнаруживать сайты связывания, начиная с несвязанной конформации, авторы смоделировали конформационный переход от несвязанного к связанному состоянию, как показано ниже. Сначала авторы смоделировали недостающие остатки в цепи B и поместили EAI001, как это наблюдается в цепи A.EGFR is a transmembrane protein from the tyrosine kinase family. Overexpression of EGFR is associated with various types of tumors. Although EGFR inhibitors exist that target the orthosteric kinase domain binding site, proteins found in cancer cells often have amino acid substitutions that render them insensitive to such inhibitors. There are also mutant-selective irreversible inhibitors that bind covalently to the amino acid residue Cys797, but some mutant-type receptors also have a different amino acid residue at position 797. Recently, a three-dimensional structure of a variant of the L858R / T790M EGFR kinase domain associated with a mutant selective allosteric inhibitor EAI001 (PDB ID: 5d41) was discovered. It was shown that EAI001 binds to only one monomer, which leads to incomplete inhibition, but also a decrease in autophosphorylation in the cell. Accordingly, the three-dimensional structure is an asymmetric dimer with one monomer bound to both orthosteric and allosteric ligands (ATP analog adenylimidodiphosphate (AMP-PNP) and EAI001, respectively), while the other monomer binds only to AMP-PNP. BiteNet has successfully identified both orthosteric and allosteric binding sites in one monomer (chain A) and only the first in the other monomer (chain B). Note that the training set contained another structure of the EGFR kinase domain (PDB ID: 5UG9); however, it contains only an orthosteric ligand far from the allosteric binding site. Although this and previous examples clearly demonstrate the ability of BiteNet to detect binding sites in holo conformations, in practice such conformations may not be known, especially when new binding sites are to be discovered. To assess the ability of BiteNet to detect binding sites starting from an unbound conformation, the authors modeled a conformational transition from unbound to bound state, as shown below. First, the authors modeled the missing residues in chain B and placed EAI001, as seen in chain A.

Затем авторы подготовили систему молекулярной динамики, содержащую цепь B, AMP-PNP и EAI001, встроенную в водяной ящик с ионами с помощью веб-сервера CHARMM-GUI. Затем авторы запустили полную минимизацию атомарной энергии подготовленной системы до сходимости, используя Gromacs [37], в результате чего получили траекторию минимизации, состоящую из 900 конформаций. Наконец, авторы удалили лиганды, ионы и воду и применили BiteNet к каждому кадру траектории минимизации вместе с его 50 репликами. Фиг. 5 показывает, что оценка вероятности для сайта аллостерического связывания неуклонно увеличивается, в то время как энергия системы снижается, а среднеквадратичное отклонение (RMSD) относительно сайта аллостерического связывания в исходной (несвязанной) конформации увеличивается. Обратите внимание, что оценка вероятности для сайта ортостерического связывания остается высокой во время минимизации.The authors then prepared a molecular dynamics system containing chain B, AMP-PNP and EAI001 embedded in an ion waterbox using the CHARMM-GUI web server. Then the authors ran a complete minimization of the atomic energy of the prepared system to convergence using Gromacs [37], resulting in a minimization trajectory consisting of 900 conformations. Finally, the authors removed ligands, ions, and water and applied BiteNet to each frame of the minimization trajectory along with its 50 cues. FIG. 5 shows that the likelihood estimate for the allosteric binding site steadily increases, while the energy of the system decreases, and the standard deviation (RMSD) relative to the allosteric binding site in the original (unbound) conformation increases. Note that the likelihood score for the orthosteric binding site remains high during minimization.

Также, что авторы использовали 4 Å для порогового значения расстояния подавления, отличного от максимального, чтобы избежать слияния прогнозов для ортостерических и аллостерических сайтов связывания на этапе постобработки BiteNet. Следовательно, BiteNet может применяться для крупномасштабных пространственно-временных траекторий для обнаружения конформаций белков, которые обладают сайтами связывания, невидимыми в исходной структуре.Also, the authors used 4 Å for a non-maximum inhibition distance threshold to avoid fusion predictions for orthosteric and allosteric binding sites in the BiteNet post-processing step. Consequently, BiteNet can be used for large-scale spatio-temporal trajectories to detect protein conformations that have binding sites that are not visible in the original structure.

Пример 3. Пространственно-временное прогнозирование сайтов связывания в рецепторах, связанных с G-белками (GPCR).Example 3. Spatio-temporal prediction of binding sites in G-protein coupled receptors (GPCR).

Рецепторы, связанные с G-белками (GPCR), опосредуют многочисленные физиологические процессы в организме, что делает их важными мишенями для лекарств. Большинство одобренных FDA препаратов связываются с ортостерическими сайтами связывания GPCR. Однако такие препараты могут быть неселективными по отношению к подтипам высокогомологичных рецепторов.G protein coupled receptors (GPCRs) mediate numerous physiological processes in the body, making them important drug targets. Most FDA-approved drugs bind to orthosteric GPCR binding sites. However, such drugs may be nonselective with respect to highly homologous receptor subtypes.

В таких случаях существует потребность в разработке лекарств, нацеленных на аллостерические сайты связывания, которые менее консервативны, чем ортостерические. Трехмерные структуры GPCR обнаруживают аллостерические сайты связывания, охватывающие внеклеточные, трансмембранные и внутриклеточные области белкового комплекса; идентификация новых аллостерических сайтов в GPCR может предоставить альтернативные варианты для открытия лекарств. Чтобы продемонстрировать использование BiteNet для пространственно-временной идентификации сайтов связывания GPCR, авторы проанализировали траектории молекулярной динамики человеческого аденозинового рецептора A2A (A2A), полученные из репозитория GPCRmd.In such cases, there is a need to develop drugs that target allosteric binding sites that are less conserved than orthosteric. The three-dimensional structures of the GPCR exhibit allosteric binding sites spanning the extracellular, transmembrane, and intracellular regions of the protein complex; identification of new allosteric sites in the GPCR could provide alternative options for drug discovery. To demonstrate the use of BiteNet for spatiotemporal identification of GPCR binding sites, the authors analyzed molecular dynamics trajectories of the A2A human adenosine receptor (A2A) obtained from the GPCRmd repository.

А именно, авторы рассмотрели траектории A2A, встроенного в липидный бислой POPC, окруженного молекулами воды, натрия и хлорид-иона, начиная с активно-подобной конформации (PDB ID: 5G53) в комплексе с агонистом NECA и без лиганда (GPCRMD ID: 48:10498 и 47:10488 соответственно). В общей сложности каждая симуляция длилась 500 нс с временным шагом 4 фс и интервалом между кадрами 2 нс, что дало 2500 конформаций A2A. Затем, авторы применили BiteNet для каждого кадра траектории. Как и ожидалось, на обеих траекториях моделирования авторы наблюдали кластер предсказаний, соответствующий каноническому ортостерическому сайту связывания в GPCR. Кластер был более плотный и с более высоким средним баллом на траектории моделирования связанного лиганда, что можно объяснить более низкой гибкостью белка из-за взаимодействий белок-лиганд. Удивительно, на обеих траекториях моделирования авторы также наблюдали кластер предсказаний в окрестности конца TM1, TM7 и спирали 8, начиная с 300 нс при моделировании без лиганда, и от 150 до 200 нс и от 320 до 370 нс при моделировании комплекса со связанным лигандом. Более пристальный взгляд на конформации с наивысшими оценками вероятности, соответствующими этому кластеру, выявил липидный хвост, скрытый в полости, образованной гидрофобными аминокислотными остатками. Важно отметить, что, хотя GPCR плотно окружены липидами, BiteNet не давал прогнозов по всей области, контактирующей с мембраной, поскольку он был специально обучен на участках связывания, пригодных для лекарств. Чтобы исследовать, связывается ли липидный хвост с полостью, для каждого кадра f авторы рассчитали его подвижность в терминах RMSD между конформацией липидного хвоста в этом кадре и конформацией липидного хвоста, усредненной по [f 100; f +100] кадров. Как видно из Фиг.6, вычисленное RMSD ниже для кадров с высокими оценками вероятности, соответствующими предполагаемому сайту связывания. Насколько известно авторам, в литературе нет доступных структур для GPCR с лигандом, связанным с этой областью. При применении BiteNet к траекториям молекулярной динамики, полученным для других рецепторов из GPCRmd, авторы также наблюдали аналогичный кластер в мускариновом рецепторе M2, опять же, начиная с активной подобной конформации. Таким образом, на предсказанную область стоит обратить внимание, поскольку она может соответствовать новому аллостерическому сайту связывания в GPCR.Namely, the authors examined the trajectories of A2A embedded in the POPC lipid bilayer surrounded by water, sodium and chloride ion molecules, starting with an active-like conformation (PDB ID: 5G53) in a complex with a NECA agonist and without a ligand (GPCRMD ID: 48: 10498 and 47: 10488 respectively). In total, each simulation lasted 500 ns with a time step of 4 fs and a frame spacing of 2 ns, resulting in 2500 A2A conformations. Then, the authors applied BiteNet for each trajectory frame. As expected, on both modeling trajectories, the authors observed a cluster of predictions corresponding to the canonical orthosteric binding site in the GPCR. The cluster was denser and with a higher mean score on the bound ligand modeling trajectory, which can be explained by the lower flexibility of the protein due to protein-ligand interactions. Surprisingly, on both simulation trajectories, the authors also observed a cluster of predictions in the vicinity of the end of TM1, TM7 and helix 8, starting at 300 ns when simulating without a ligand, and from 150 to 200 ns and from 320 to 370 ns when simulating a complex with a bound ligand. A closer look at the conformations with the highest likelihood scores corresponding to this cluster revealed a lipid tail hidden in a cavity formed by hydrophobic amino acid residues. It is important to note that although the GPCRs are densely surrounded by lipids, BiteNet did not make predictions for the entire membrane-contacting region, as it was specially trained on drug binding sites. To investigate whether the lipid tail binds to the cavity, for each frame f, the authors calculated its mobility in terms of RMSD between the lipid tail conformation in this frame and the lipid tail conformation averaged over [f 100; f +100] frames. As seen in FIG. 6, the calculated RMSD below is for frames with high likelihood estimates corresponding to the assumed binding site. To the authors' knowledge, there are no structures available in the literature for GPCR with a ligand associated with this region. When applying BiteNet to molecular dynamics trajectories derived for other receptors from GPCRmd, the authors also observed a similar cluster in the M2 muscarinic receptor, again starting with an active similar conformation. Thus, the predicted region is worth paying attention to, as it may correspond to a new allosteric binding site in the GPCR.

Подводя итог, авторы показали применимость BiteNet для обнаружения сайтов связывания для трех различных фармакологических мишеней и проблемных сайтов связывания, наблюдаемых как в растворимых, так и в трансмембранных доменах белков. BiteNet способен обнаруживать конформационно-специфические и олигомер-специфические аллостерические сайты связывания, и может применяться для крупномасштабного пространственно-временного анализа белковых структур. На примере A2A авторы продемонстрировали, как BiteNet можно использовать на практике для исследования новых сайтов связывания. Также нужно отметить, что использованные трехмерные структуры не были представлены BiteNet в процессе обучения. To summarize, the authors demonstrated the utility of BiteNet for detecting binding sites for three different pharmacological targets and problematic binding sites observed in both soluble and transmembrane domains of proteins. BiteNet is capable of detecting conformation-specific and oligomer-specific allosteric binding sites, and can be used for large-scale spatial-temporal analysis of protein structures. Using the A2A as an example, the authors demonstrated how BiteNet can be used in practice to explore new binding sites. It should also be noted that the 3D structures used were not presented to BiteNet during the training.

Пример 4. Сравнение вычислительной эффективности BiteNet.Example 4. Comparison of the computational efficiency of BiteNet.

Чтобы сравнить BiteNet с другими подходами, авторы оценили его производительность на наборах данных COACH420 (A. Roy, J. Yang, and Y. Zhang, Cofactor: an accurate comparative algorithm for structure-based protein function annotation, Nucleic acids research 40, W471 (2012)) и HOLO4K (P. Schmidtke, C. Souaille, F. Estienne, N. Baurin, and R. T. Kroemer, Large-scale comparison of four binding site detection algorithms, Journal of chemical information and modeling 50, 2191 (2010)), которые содержат 420 и 4542 белка соответственно. Для корректного сравнения авторы рассматривали только белки, не представленные в наборах последовательностей метода, для которых все методы успешно предсказывают истинные сайты связывания в соответствии с критерием P2Rank [28], что приводит к подмножествам белков 230 и 2305 из COACH420 и HOLO4K, соответственно. В качестве показателя производительности авторы рассчитали среднюю точность (AP), то есть площадь под кривой точности-отзыва, для прогнозов All и TopN, где N - количество истинных сайтов связывания, присутствующих в структуре белка. Как видно из Фиг.7, BiteNet статистически превосходит классические методы прогнозирования сайтов привязки, такие как fpocket (V. Le Guilloux, P. Schmidtke, and P. Tuffery, Fpocket: an open source platform for ligand pocket detection, BMC bioinformatics 10, 168 (2009)); SiteHound (M. Hernandez, D. Ghersi, and R. Sanchez, Sitehoundweb: a server for ligand binding site identification in protein structures, Nucleic acids research 37, W413 (2009)); MetaPocket (Z. Zhang, Y. Li, B. Lin, M. Schroeder, and B. Huang, Identification of cavities on protein surface using multiple computational approaches for drug binding site prediction, Bioinformatics 27, 2083 (2011)), а также современные методы машинного обучения, такие как DeepSite (J. Jiménez, S. Doerr, G. Martínez-Rosell, A. S. Rose, and G. De Fabritiis, Deepsite: protein-binding site predictor using 3d-convolutional neural networks, Bioinformatics 33, 3036 (2017)) и P2Rank (R. Krivák and D. Hoksza, P2rank: machine learning based tool for rapid and accurate prediction of ligand binding sites from protein structure, Journal of cheminformatics 10, 39 (2018)), p-value 1.2e-6.To compare BiteNet with other approaches, the authors evaluated its performance on COACH420 datasets (A. Roy, J. Yang, and Y. Zhang, Cofactor: an accurate comparative algorithm for structure-based protein function annotation, Nucleic acids research 40, W471 ( 2012)) and HOLO4K (P. Schmidtke, C. Souaille, F. Estienne, N. Baurin, and RT Kroemer, Large-scale comparison of four binding site detection algorithms, Journal of chemical information and modeling 50, 2191 (2010)) which contain 420 and 4542 proteins, respectively. For correct comparison, the authors considered only proteins not represented in the sequence sets of the method, for which all methods successfully predict the true binding sites in accordance with the P2Rank criterion [28], which leads to subsets of proteins 230 and 2305 from COACH420 and HOLO4K, respectively. As an indicator of performance, the authors calculated the average accuracy (AP), that is, the area under the accuracy-recall curve, for the All and TopN predictions, where N is the number of true binding sites present in the protein structure. As seen in Figure 7, BiteNet is statistically superior to classical anchor site prediction methods such as fpocket (V. Le Guilloux, P. Schmidtke, and P. Tuffery, Fpocket: an open source platform for ligand pocket detection, BMC bioinformatics 10, 168 (2009)); SiteHound (M. Hernandez, D. Ghersi, and R. Sanchez, Sitehoundweb: a server for ligand binding site identification in protein structures, Nucleic acids research 37, W413 (2009)); MetaPocket (Z. Zhang, Y. Li, B. Lin, M. Schroeder, and B. Huang, Identification of cavities on protein surface using multiple computational approaches for drug binding site prediction, Bioinformatics 27, 2083 (2011)), and modern machine learning methods such as DeepSite (J. Jiménez, S. Doerr, G. Martínez-Rosell, AS Rose, and G. De Fabritiis, Deepsite: protein-binding site predictor using 3d-convolutional neural networks, Bioinformatics 33, 3036 (2017)) and P2Rank (R. Krivák and D. Hoksza, P2rank: machine learning based tool for rapid and accurate prediction of ligand binding sites from protein structure, Journal of cheminformatics 10, 39 (2018)), p-value 1.2e -6.

BiteNet также эффективен с точки зрения вычислений. На Фиг.7B показано время, затраченное BiteNet вместе с fpocket и P2Rank, которые являются одними из самых быстрых методов с точки зрения количества конформаций обработанного белка. BiteNet, работающий на одном графическом процессоре (GeForce GTX 1080 Ti), превосходит P2Rank, работающий на нескольких процессорах (Intel (R) Core (TM) i7-8700K CPU @ 3,70 ГГц). В среднем BiteNet требуется приблизительно 0,1 секунды для обработки конформации одного белка. Дальнейшая оптимизация взаимодействия CPU-GPU и реализация BiteNet с несколькими графическими процессорами приведет к еще большей производительности.BiteNet is also computationally efficient. Figure 7B shows the time taken by BiteNet together with fpocket and P2Rank, which are some of the fastest methods in terms of the number of processed protein conformations. BiteNet running on a single GPU (GeForce GTX 1080 Ti) outperforms P2Rank running on multiple processors (Intel (R) Core (TM) i7-8700K CPU @ 3.70 GHz). On average, BiteNet takes approximately 0.1 seconds to process the conformation of a single protein. Further optimizing the CPU-GPU interaction and implementing BiteNet with multiple GPUs will result in even better performance.

В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного изобретения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.In the present application materials, the preferred disclosure of the implementation of the claimed invention was presented, which should not be used as limiting other, particular embodiments of its implementation, which do not go beyond the scope of the claimed scope of legal protection and are obvious to specialists in the relevant field of technology.

Claims (12)

1. Способ идентификации участков связывания белкового комплекса с низкомолекулярным химическим соединением на основе структурной информации с использованием машинного обучения, содержащий этапы, на которых1. A method for identifying binding sites of a protein complex with a low molecular weight chemical compound based on structural information using machine learning, containing the stages at which получают тензорное представление пространственной структуры белкового комплекса;obtain a tensor representation of the spatial structure of the protein complex; осуществляют предобработку пространственной структуры белкового комплекса, в результате которой получают трехмерную воксельную сетку структуры белкового комплекса, где каналы данных вокселей соответствуют плотностям атомов, входящих в состав белкового комплекса;carrying out preprocessing of the spatial structure of the protein complex, as a result of which a three-dimensional voxel grid of the protein complex structure is obtained, where the channels of these voxels correspond to the densities of atoms that make up the protein complex; трехмерную воксельную сетку структуры белкового комплекса разбивают на кубические сетки меньшего размера, покрывающие исходную трехмерную воксельную сетку;the three-dimensional voxel grid of the protein complex structure is divided into smaller cubic grids that cover the original three-dimensional voxel grid; каждую кубическую сетку анализируют с помощью алгоритма машинного обучения для прогнозирования центра участка связывания низкомолекулярного соединения в ячейках кубической сетки;each cubic grid is analyzed using a machine learning algorithm to predict the center of the low-molecular-weight binding site in the cells of the cubic grid; каждой ячейке в кубических сетках ставят в соответствие действительное число в диапазоне от 0 до 1, где 1 соответствует максимальной оценке достоверности предсказания;each cell in cubic grids is assigned a real number in the range from 0 to 1, where 1 corresponds to the maximum estimate of the prediction reliability; получают результаты предсказания центров участков связывания для каждой кубической сетки с оценками достоверности предсказания, используя кластеризацию предсказаний для ячеек, соответствующих одному участку белкового комплекса;obtaining the results of prediction of the centers of binding sites for each cube grid with estimates of the reliability of predictions using clustering predictions for the cells corresponding to one site of the protein complex; осуществляют идентификацию аминокислотных остатков участков связывания в заданном расстоянии относительно предсказанного центра участка связывания;carry out identification of amino acid residues of the binding sites at a given distance relative to the predicted center of the binding site; полученные предсказания и идентифицированные аминокислотные остатки для набора различных конформаций белковых комплексов группируют с использованием алгоритмов кластеризации по предсказаниям по каждой входной структуре белкового комплекса.the obtained predictions and identified amino acid residues for a set of different conformations of protein complexes are grouped using predictive clustering algorithms for each input structure of the protein complex. 2. Способ по п.1, характеризующийся тем, что низкомолекулярное соединение является лекарственным средством.2. The method according to claim 1, characterized in that the low molecular weight compound is a drug. 3. Способ по п.1, характеризующийся тем, что получают тензорное представление нескольких пространственных структур белкового комплекса, полученных в разные промежутки времени, и для каждой такой структуры реализуют кластеризацию предсказаний с учетом хронологического порядка пространственных структур белкового комплекса.3. The method according to claim 1, characterized in that a tensor representation of several spatial structures of the protein complex obtained at different time intervals is obtained, and for each such structure, predictions are clustered taking into account the chronological order of the spatial structures of the protein complex. 4. Способ по п. 1, характеризующийся тем, осуществляют предобработку пространственной структуры белкового комплекса, в результате которой получают трехмерную воксельную сетку структуры белкового комплекса, где каналы данных вокселей соответствуют плотностям атомарных групп.4. The method according to claim 1, characterized by the preprocessing of the spatial structure of the protein complex, as a result of which a three-dimensional voxel grid of the protein complex structure is obtained, where the channels of these voxels correspond to the densities of atomic groups.
RU2020127322A 2020-08-14 2020-08-14 Method for identification of binding sites of protein complexes RU2743316C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2020127322A RU2743316C1 (en) 2020-08-14 2020-08-14 Method for identification of binding sites of protein complexes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020127322A RU2743316C1 (en) 2020-08-14 2020-08-14 Method for identification of binding sites of protein complexes

Publications (1)

Publication Number Publication Date
RU2743316C1 true RU2743316C1 (en) 2021-02-17

Family

ID=74666240

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020127322A RU2743316C1 (en) 2020-08-14 2020-08-14 Method for identification of binding sites of protein complexes

Country Status (1)

Country Link
RU (1) RU2743316C1 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002031510A1 (en) * 2000-10-11 2002-04-18 Pepscan Systems B.V. Identification of protein binding sites
WO2007148130A1 (en) * 2006-06-19 2007-12-27 Cresset Biomolecular Discovery Ltd Automated iterative drug discovery and synthesis
EA010258B1 (en) * 2002-07-24 2008-06-30 Кеддем Байо-Сайенс Лтд. Drug discovery method
WO2019136349A2 (en) * 2018-01-08 2019-07-11 Progenics Pharmaceuticals, Inc. Systems and methods for rapid neural network-based image segmentation and radiopharmaceutical uptake determination
CN111210870A (en) * 2019-12-27 2020-05-29 青岛海洋科学与技术国家实验室发展中心 Protein classification method
WO2020109608A1 (en) * 2018-11-29 2020-06-04 Benevolentai Technology Limited Machine learning for protein binding sites
CN111243668A (en) * 2020-04-09 2020-06-05 腾讯科技(深圳)有限公司 Method and device for detecting molecule binding site, electronic device and storage medium

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002031510A1 (en) * 2000-10-11 2002-04-18 Pepscan Systems B.V. Identification of protein binding sites
EA010258B1 (en) * 2002-07-24 2008-06-30 Кеддем Байо-Сайенс Лтд. Drug discovery method
WO2007148130A1 (en) * 2006-06-19 2007-12-27 Cresset Biomolecular Discovery Ltd Automated iterative drug discovery and synthesis
WO2019136349A2 (en) * 2018-01-08 2019-07-11 Progenics Pharmaceuticals, Inc. Systems and methods for rapid neural network-based image segmentation and radiopharmaceutical uptake determination
WO2020109608A1 (en) * 2018-11-29 2020-06-04 Benevolentai Technology Limited Machine learning for protein binding sites
CN111210870A (en) * 2019-12-27 2020-05-29 青岛海洋科学与技术国家实验室发展中心 Protein classification method
CN111243668A (en) * 2020-04-09 2020-06-05 腾讯科技(深圳)有限公司 Method and device for detecting molecule binding site, electronic device and storage medium

Similar Documents

Publication Publication Date Title
Kozlovskii et al. Spatiotemporal identification of druggable binding sites using deep learning
Krone et al. Visual analysis of biomolecular cavities: State of the art
Le Guilloux et al. Fpocket: an open source platform for ligand pocket detection
Rodriguez et al. Computing the free energy without collective variables
Yuan et al. Binding site detection and druggability prediction of protein targets for structure-based drug design
WO2022206320A1 (en) Prediction model training and data prediction methods and apparatuses, and storage medium
Simões et al. Geometric detection algorithms for cavities on protein surfaces in molecular graphics: a survey
Ballester Ultrafast shape recognition: method and applications
FR2948475A1 (en) METHOD FOR CHARACTERIZING THREE DIMENSIONAL OBJECTS
Westerlund et al. InfleCS: clustering free energy landscapes with Gaussian mixtures
Lindow et al. Exploring cavity dynamics in biomolecular systems
Zhang et al. State-dependent sequential allostery exhibited by chaperonin TRiC/CCT revealed by network analysis of Cryo-EM maps
Volkamer et al. Exploiting structural information for drug-target assessment
Finn et al. Shape‐based similarity searching in chemical databases
Rovšnik et al. Dynamic closed states of a ligand-gated ion channel captured by cryo-EM and simulations
Evteev et al. SiteRadar: utilizing graph machine learning for precise mapping of protein–ligand-binding sites
Guterres et al. CHARMM-GUI LBS finder & refiner for ligand binding site prediction and refinement
Gu et al. Surface‐histogram: A new shape descriptor for protein‐protein docking
RU2743316C1 (en) Method for identification of binding sites of protein complexes
Barradas‐Bautista et al. A systematic analysis of scoring functions in rigid‐body protein docking: the delicate balance between the predictive rate improvement and the risk of overtraining
Tsujikawa et al. Development of a protein–ligand-binding site prediction method based on interaction energy and sequence conservation
Degac et al. Graph-based clustering of predicted ligand-binding pockets on protein surfaces
Pozzati et al. Scoring of protein–protein docking models utilizing predicted interface residues
Wilson et al. The electrostatic landscape of MHC-peptide binding revealed using inception networks
Simon et al. Relating the shape of protein binding sites to binding affinity profiles: is there an association?