RU2577107C2 - Method for searching target proteins triggering process of carcinogenesis, in individual patient's tissue samples for purposes of subsequent antitumour medicinal treatment - Google Patents

Method for searching target proteins triggering process of carcinogenesis, in individual patient's tissue samples for purposes of subsequent antitumour medicinal treatment Download PDF

Info

Publication number
RU2577107C2
RU2577107C2 RU2013144622/10A RU2013144622A RU2577107C2 RU 2577107 C2 RU2577107 C2 RU 2577107C2 RU 2013144622/10 A RU2013144622/10 A RU 2013144622/10A RU 2013144622 A RU2013144622 A RU 2013144622A RU 2577107 C2 RU2577107 C2 RU 2577107C2
Authority
RU
Russia
Prior art keywords
genes
gene
individual patient
target proteins
data
Prior art date
Application number
RU2013144622/10A
Other languages
Russian (ru)
Other versions
RU2013144622A (en
Inventor
Екатерина Александровна Котельникова
Михаил Алексеевич Пятницкий
Original Assignee
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Московский государственный университет имени М.В. Ломоносова" (МГУ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Московский государственный университет имени М.В. Ломоносова" (МГУ) filed Critical Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Московский государственный университет имени М.В. Ломоносова" (МГУ)
Priority to RU2013144622/10A priority Critical patent/RU2577107C2/en
Publication of RU2013144622A publication Critical patent/RU2013144622A/en
Application granted granted Critical
Publication of RU2577107C2 publication Critical patent/RU2577107C2/en

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

FIELD: medicine.
SUBSTANCE: invention refers to biotechnology, namely to a method for searching target proteins triggering the process of cancerogenesis, in individual patient's tissue samples for purposes of the subsequent antitumour therapy. A sequencing method is used to obtain transcriptomic data on gene expression levels in the samples. A kit of activated gene-control networks consisting of a central control gene and controlled genes, is produced. Differential expressed genes are derived from the transcriptomic data. The sequencing methods are used to trace variations in DNA sequences presented in the form of a set of single-nucleotide polymorphisms in the samples. Driver genes are specified among the detected genetic variations. Canonical signal pathways considerably enriched with the pre-detected central expression-control genes, differentially expressed genes, genes with identified single-nucleotide polymorphisms, and indel driver genes are searched. By means of a direct search method, the identified signal pathways are analysed to detect the components - existing proteins targeted by medicinal products for the antitumour therapy.
EFFECT: presented invention enables the high-efficacy detection of the target proteins triggering the process of cancerogenesis, in the individual patient's tissue samples.
1 dwg, 5 tbl

Description

Область техникиTechnical field

Изобретение относится к области биотехнологии и персонализированной медицины. Объект заявки представляет собой способ идентификации активированных сигнальных путей (молекулярных механизмов) специфичных для развития определенного подтипа онкологических заболеваний у индивидуального пациента. Для этого используются данные о последовательности ДНК (экзом) и уровне экспрессии генов (транскриптом) для образцов нормальной ткани и ткани опухоли. В частности, изобретение позволяет генерировать персонализированные рекомендации для оптимизации схем противоопухолевой фармакотерапии и может быть использовано в медицине.The invention relates to the field of biotechnology and personalized medicine. The object of the application is a method for identifying activated signaling pathways (molecular mechanisms) specific for the development of a particular subtype of cancer in an individual patient. For this, data on the DNA sequence (exom) and the level of gene expression (transcript) for samples of normal tissue and tumor tissue are used. In particular, the invention allows the generation of personalized recommendations for optimizing antitumor pharmacotherapy regimens and can be used in medicine.

Уровень техникиState of the art

Ключевой тенденцией в современном лечении онкологических заболеваний является то, что постановка диагноза, прогнозирование течения заболевания, оценки риска и ответа на терапию могут быть значительно улучшены путем стратификации пациентов на основании геномных, транскриптомных и эпигеномных характеристик опухоли. Под стратификацией подразумевается разделение пациентов на подгруппы объединенные общими активированными молекулярными механизмами, ответственными за развитие заболевания. При этом для каждой отдельной подгруппы пациентов со специфическим молекулярным механизмом онкогенеза может применяться специфическая лекарственная терапия. Такая персонализированная терапия может быть более эффективной по сравнению со стандартной схемой, т.к. учитывает специфику заболевания у отдельного пациента.A key trend in the modern treatment of cancer is that diagnosis, prediction of the course of the disease, risk assessment and response to therapy can be significantly improved by stratifying patients based on the genomic, transcriptomic and epigenomic characteristics of the tumor. By stratification is meant the separation of patients into subgroups united by common activated molecular mechanisms responsible for the development of the disease. Moreover, for each individual subgroup of patients with a specific molecular mechanism of oncogenesis, specific drug therapy can be used. Such personalized therapy may be more effective than the standard regimen, as takes into account the specifics of the disease in an individual patient.

Особый интерес представляют методы, позволяющие при стратификации пациентов одновременно учесть различные типы данных, характеризующие молекулярные свойства опухоли, в частности - объединить данные о копийностях генов, имеющихся соматических мутациях и степени экспрессии соответствующих мРНК. Другим желательным свойством методов стратификации пациентов является интегрирование с существующим биологическим знанием, представленным в виде набора генных онтологий, сигнальных путей, а также сетей межгенных и межбелковых взаимодействий. Под интегрированием понимается учет и использование при поиске активированных молекулярных механизмов онкогенеза известной биологической информации хранящейся в различных базах данных, таких как Gene Onthology, KEGG, Wiki Pathways, DrugBank, Reactome, PharmGKB и подобных ресурсах. Данная область является относительно новой, но активно развивается в последнее время.Of particular interest are methods that allow for the stratification of patients to simultaneously take into account various types of data characterizing the molecular properties of the tumor, in particular, to combine data on gene copies, existing somatic mutations and the degree of expression of the corresponding mRNA. Another desirable property of patient stratification methods is integration with existing biological knowledge, presented as a set of gene ontologies, signaling pathways, and networks of intergenic and protein-protein interactions. Integration refers to the accounting and use of known biological information stored in various databases, such as Gene Onthology, KEGG, Wiki Pathways, DrugBank, Reactome, PharmGKB and similar resources, when searching for activated molecular mechanisms of oncogenesis. This area is relatively new, but has been actively developing recently.

К настоящему моменту разработано несколько способов использования информации об уровне экспрессии и последовательностях генов для стратификации пациентов (Bennett В.D., Xiong Q., Mukherjee S. and Furey Т. S.A predictive framework for integrating disparate genomic data types using sample-specific gene set enrichment analysis and multi-task learning (2012) PLoS One 7, e44635; Ng S., Collisson E.A., Sokolov A., Goldstein Т., Gonzalez-Perez A., Lopez-Bigas N., Benz C., Haussler D, and Stuart J.M. PARADIGM-SHIFT predicts the function of mutations in multiple cancers using pathway impact analysis (2012) Bioinformatics 28, i640-i646; Xiong Q., Ancona N., Hauser E.R., Mukherjee S. and Furey T.S. Integrating genetic and gene expression evidence into genome-wide association analysis of gene sets (2012) Genome Res 22, 386-397). Однако ни в одном из указанных методов не сочетаются анализ активированных генных сетей с объединением экзомных и транскриптомных данных на уровне отдельного пациента.To date, several methods have been developed for using information on expression level and gene sequences for stratification of patients (Bennett B.D., Xiong Q., Mukherjee S. and Furey T. SA predictive framework for integrating disparate genomic data types using sample-specific gene set enrichment analysis and multi-task learning (2012) PLoS One 7, e44635; Ng S., Collisson EA, Sokolov A., Goldstein T., Gonzalez-Perez A., Lopez-Bigas N., Benz C., Haussler D, and Stuart JM PARADIGM-SHIFT predicts the function of mutations in multiple cancers using pathway impact analysis (2012) Bioinformatics 28, i640-i646; Xiong Q., Ancona N., Hauser ER, Mukherjee S. and Furey TS Integrating genetic and gene expression evidence into genome-wide association analysis of gene sets (2012) Genome Res 22, 386-397). However, none of these methods combines the analysis of activated gene networks with the combination of exomic and transcriptome data at the individual patient level.

Из остальных методов наиболее близок к патентуемому изобретению метод iCluster + (Мо Q., Wang S., Seshan V.Е., Olshen А.В., Schultz N., Sander С., Powers R.S., Ladanyi M. and Shen R. Pattern discovery and cancer gene identification in integrated cancer genomic data (2013) Proc Natl Acad Sci USA 110, 4245-4250). Авторами разработан единый математический аппарат, основанный на регрессионном и факторном анализе, и позволяющий объединить множество разнообразных типов данных. Так наличие мутации в каждом гене моделируется как бинарная переменная, что позволяет использовать метод логистической регрессии. Данные о копийностях генов трактуются в категориальной шкале, и для их анализа применяется мультиномиальная логит-модель. Наконец количество прочтений мРНК полученных методом RNASeq обрабатывается пуассоновской регрессией. Построенная модель оптимизируется путем отбора значимых переменных. Наибольший интерес представляют кластер-специфичные гены, характеризующие тот или иной молекулярный механизм. Однако для метода не разработана валидация построенной модели, большое число параметров значительно увеличивает риск чрезмерной подстройки модели под данные (переобучение), а найденным скрытым (латентным) переменным не дается какая-либо биологическая интерпретация. Также в методе не используется априорное биологическое знание (канонические сигнальные пути).Of the remaining methods, the iCluster + method is the closest to the patented invention (Mo Q., Wang S., Seshan V.E., Olshen A.V., Schultz N., Sander C., Powers RS, Ladanyi M. and Shen R. Pattern discovery and cancer gene identification in integrated cancer genomic data (2013) Proc Natl Acad Sci USA 110, 4245-4250). The authors have developed a unified mathematical apparatus based on regression and factor analysis, which allows you to combine many different types of data. So the presence of mutations in each gene is modeled as a binary variable, which allows the use of the logistic regression method. Data on gene copies are interpreted on a categorical scale, and a multinomial logit model is used to analyze them. Finally, the number of readings of mRNA obtained by the RNASeq method is processed by Poisson regression. The constructed model is optimized by selecting significant variables. Of greatest interest are cluster-specific genes that characterize one or another molecular mechanism. However, the validation of the constructed model has not been developed for the method, a large number of parameters significantly increase the risk of over-tuning the model to fit the data (retraining), and any hidden (latent) variables are not given any biological interpretation. Also, the method does not use a priori biological knowledge (canonical signaling pathways).

Из других методов можно упомянуть алгоритм PARADIGM (Ng S., Collisson E.A., Sokolov A., Goldstein Т., Gonzalez-Perez A., Lopes-Bigas N., Benz C., Haussler D. and Stuart J.M. PARADIGM-SHIFT predicts the function of mutations in multiple cancers using pathway impact analysis (2012) Bioinformatics 28, i640-i646; Vaske C.J., Benz S.C., Sanborn J.Z., Earl D., Szeto C., Zhy J., Haussler D. and Stuart J.M. Inference of patient-specific pathway activities from multi-dimensional cancer genomics data using PARADIGM (2010) Bioinformatics 26, i237-245), который интегрирует данные о копийностях генов с транскриптомным анализом, используя обширную коллекцию сигнальных путей NCI PID (Schaefer С.F., Anthony K., Krupa S., Buchoff J., Day M., Hannay Т. and Buetow K.H. PID: the Pathway Interaction Database (2009) Nucleic Acids Res 37, D674-679). Каждый сигнальный путь конвертируется в вероятностную модель (факторный граф), где моделируются регуляции транскрипции и трансляции. Аналогично методу максимального правдоподобия для каждого гена оценивается мера его активности при условии имеющихся данных. Полученная матрица активностей генов используется для проведения иерархического кластерного анализа пациентов. Найденные группы пациентов показывают достоверное различие в выживаемости. Однако в указанном методе не учитываются известные соматические мутации (экзомные данные), а для применения метода требуется значительная выборка пациентов, что ограничивает его применение на практике.Other methods include the PARADIGM algorithm (Ng S., Collisson EA, Sokolov A., Goldstein T., Gonzalez-Perez A., Lopes-Bigas N., Benz C., Haussler D. and Stuart JM PARADIGM-SHIFT predicts the function of mutations in multiple cancers using pathway impact analysis (2012) Bioinformatics 28, i640-i646; Vaske CJ, Benz SC, Sanborn JZ, Earl D., Szeto C., Zhy J., Haussler D. and Stuart JM Inference of patient -specific pathway activities from multi-dimensional cancer genomics data using PARADIGM (2010) Bioinformatics 26, i237-245), which integrates gene copy numbers with transcriptional analysis using an extensive collection of NCI PID signaling pathways (Schaefer C.F., Anthony K ., Krupa S., Buchoff J., Day M., Hannay T. and Buetow KH PID: the Pathway Interaction Database (2009) Nucleic Acids Res 37, D674-679). Each signaling path is converted into a probabilistic model (factor graph), where transcriptional and translational regulation are modeled. Similarly to the maximum likelihood method, a measure of its activity is assessed for each gene, subject to available data. The resulting gene activity matrix is used for hierarchical cluster analysis of patients. Found groups of patients show a significant difference in survival. However, this method does not take into account known somatic mutations (exomic data), and the use of the method requires a significant sample of patients, which limits its practical application.

В большинстве других алгоритмов предложенных для стратификации пациентов (патенты ЕР 2297359 A1, US 20120252856 A1, 2473555 С2) предлагается использовать заранее зафиксированный набор генов либо входящих в общий сигнальный путь, либо отобранных в результате независимого поиска биомаркеров и не учитывающих известные белок-белковые взаимодействия. Это не позволяет идентифицировать случаи, когда у индивидуального пациента активирован другой регуляторный каскад, ответственный за развитие опухоли и не входящий в априорно заданный набор генов. Соответственно подход с фиксированным набором генов не может учесть протекание заболевания в каждом отдельном случае. Такие наборы генов представляют собой потенциальные многомерные биомаркеры, идентифицированные с помощью различных процедур статистического анализа транскриптомных данных, включая методы распознавания образов. Однако несмотря на проделанный объем работ в данной области, большинство найденных таким способом биомаркеров было невоспроизводимо в независимых исследованиях, а клиническая значимость была продемонстрирована для единичных наборов биомаркеров. Причинами слабой воспроизводимости результатов являются значительные статистические трудности при обработке данных характеризующимися десятками тысяч переменных (т.н. 'проклятие размерности') и наличие существенной биологической вариабельности между образцами.In most other algorithms proposed for stratification of patients (patents EP 2297359 A1, US 20120252856 A1, 2473555 C2), it is proposed to use a pre-fixed set of genes that are either part of the common signaling pathway or selected as a result of an independent search for biomarkers and not taking into account known protein-protein interactions. This does not allow us to identify cases when an individual regulatory cascade is activated in an individual patient, which is responsible for the development of the tumor and is not included in the a priori specified set of genes. Accordingly, the approach with a fixed set of genes cannot take into account the course of the disease in each individual case. Such gene sets are potential multidimensional biomarkers identified by various statistical transcriptome analysis procedures, including pattern recognition methods. However, despite the amount of work done in this area, most of the biomarkers found in this way were irreproducible in independent studies, and clinical significance was demonstrated for single sets of biomarkers. The reasons for the poor reproducibility of the results are significant statistical difficulties in processing data characterized by tens of thousands of variables (the so-called “curse of dimensionality”) and the presence of significant biological variability between samples.

Актуальность изобретенияThe relevance of the invention

Популяции клеток опухоли чрезвычайно гетерогенны как в морфологических, так и в функциональных аспектах, а соответствующие молекулярные механизмы ответственные за прогрессирование опухоли очень разнообразны. Поэтому одной из важнейших проблем современной онкологии является разработка персонализированного подхода к таргетной (целенаправленной) терапии опухолей, заключающегося в учете индивидуальных особенностей молекулярного профиля конкретного новообразования. Воздействие на специфические для опухоли нарушения в активности сигнальных каскадов все чаще рассматривается как основная причина эффективности ее ответа на ту или иную схему направленной терапии. Также важность персонифицированного подхода к выбору таргетной химиотерапии обусловлена высокой стоимостью и высокой токсичностью противоопухолевых препаратов. При этом ошибка в определении специфической терапии может выявиться только через несколько месяцев, когда прогрессирование опухоли вследствие неэффективной терапии приведет к необратимым последствиям. Резюмируя, можно заключить, что в области оптимизации схем лечения онкологических заболеваний как нигде справедлив подход "лечить больного, а не болезнь".Tumor cell populations are extremely heterogeneous in both morphological and functional aspects, and the corresponding molecular mechanisms responsible for tumor progression are very diverse. Therefore, one of the most important problems of modern oncology is the development of a personalized approach to targeted (targeted) therapy of tumors, which consists in taking into account the individual characteristics of the molecular profile of a particular tumor. The effect on tumor-specific disturbances in the activity of signaling cascades is increasingly seen as the main reason for the effectiveness of its response to a particular treatment regimen. The importance of a personalized approach to the choice of targeted chemotherapy is also due to the high cost and high toxicity of anticancer drugs. In this case, an error in determining specific therapy can be detected only after a few months, when the progression of the tumor due to ineffective therapy will lead to irreversible consequences. Summarizing, we can conclude that in the field of optimizing cancer treatment regimens, the approach “treating a patient, not a disease” is as valid as anywhere else.

За последнее десятилетие существенный прогресс в области изучения молекулярных особенностей злокачественных клеток достигнут благодаря интенсивному развитию высокопроизводительных методов геномного секвенирования (Next-Generation Sequencing, NGS). Снижение стоимости технологий детектирования однонуклеотидных полиморфизмов (Single Nucleotide Polymorphism, SNP) и определения уровней экспрессии всей совокупности мРНК транскриптома (технология RNASeq) позволило проводить крупномасштабные международные проекты для получения информации о генетических профилях различных видов раковых заболеваний.Over the past decade, significant progress in the study of molecular features of malignant cells has been achieved thanks to the intensive development of high-performance methods of genomic sequencing (Next-Generation Sequencing, NGS). Reducing the cost of technologies for detecting single nucleotide polymorphisms (Single Nucleotide Polymorphism, SNP) and determining the expression levels of the entire set of transcriptome mRNA (RNASeq technology) has allowed conducting large-scale international projects to obtain information on the genetic profiles of various types of cancer.

В то же время до сих пор не разработаны устоявшиеся алгоритмы и подходы по интеграции массивов различных типов NGS-данных с целью их биологического осмысления с точки зрения накопленных знаний о взаимодействии и регуляции генов и белков. Это сильно затрудняет клиническое применение результатов проведенных геномных и транскриптомных анализов. Для определения дерегулированных сигнальных каскадов и соответственно индивидуального подбора терапии необходимо разработать метод по наложению имеющихся результатов экзомного и транскриптомного анализа на заранее сформированные экспертом сигнальные каскады (pathways), биологические сети и генные сигнатуры.At the same time, well-established algorithms and approaches for the integration of arrays of various types of NGS data have not yet been developed with the aim of their biological understanding from the point of view of accumulated knowledge about the interaction and regulation of genes and proteins. This greatly complicates the clinical application of the results of genomic and transcriptome analyzes. To determine the deregulated signal cascades and, accordingly, the individual selection of therapy, it is necessary to develop a method for superimposing the available results of exomic and transcriptome analysis on pathways, biological networks, and gene signatures previously formed by the expert.

Раскрытие изобретенияDisclosure of invention

Разработанная методика представляет собой способ анализа данных о соматических мутациях и экспрессии генов для идентификации белков-мишеней в составе активированных сигнальных путей специфичных для развития определенного подтипа онкологических заболеваний у индивидуального пациента и генерации персонализированных рекомендаций для оптимизации схем противоопухолевой фармакотерапии.The developed technique is a method of analyzing data on somatic mutations and gene expression for identifying target proteins in activated signaling pathways specific for the development of a particular subtype of cancer in an individual patient and generating personalized recommendations for optimizing antitumor pharmacotherapy regimens.

Данные об экспрессии генов могут быть получены с помощью различных технологий. Наиболее распространены два подхода - метод биочипов (microarray) и метод RNASeq, представляющий собой секвенирование следующего поколения (NGS) и основанный на прямом прочтении последовательности нуклеотидов в молекулах дезоксирибонуклеиновых кислот.Gene expression data can be obtained using various technologies. Two approaches are most common - the bioarray method (microarray) and the RNASeq method, which is the next generation sequencing (NGS) and based on a direct reading of the nucleotide sequence in the molecules of deoxyribonucleic acids.

Отличие предлагаемого подхода от известных методов состоит в том, что идентификация активированных сигнальных путей проводится для каждого образца (пациента) индивидуально, т.е. набор потенциальных биомаркеров заранее не зафиксирован, а определяется 'на лету'. Также важной особенностью патентуемого подхода является ориентация на поиск именно регуляторных межгенных взаимодействий, а не набора дифференциально экспрессированных генов. Многие регуляторы входят в состав сигнальных путей и могут служить указанием на молекулярный механизм специфического подтипа заболевания. При этом уровень экспрессии самого регулятора часто меняется незначительно, что не позволяет выявить его при помощи стандартных методов поиска дифференциально экспрессируемых генов. Наконец в предлагаемом подходе предлагается способ интегрирования транскриптомных и экзомных данных путем проецирования их на известные сигнальные каскады. Для этого производится поиск сигнальных каскадов статистически достоверно обогащенных генами/белками, полученными в результате анализа данных по экспрессии и последовательностей ДНК. Изучение указанных сигнальных каскадов экспертом-биологом дает возможность построить модель развития заболевания для индивидуального пациента, а изучение состава найденных значимых сигнальных каскадов на предмет известных белков-мишеней дает возможность предложить персонализированную оптимальную противоопухолевую терапию.The difference between the proposed approach and the known methods is that the identification of activated signaling pathways is carried out individually for each sample (patient), i.e. the set of potential biomarkers is not fixed in advance, but determined on the fly. Another important feature of the patented approach is its orientation toward the search for precisely regulatory intergenic interactions, rather than a set of differentially expressed genes. Many regulators are part of the signaling pathways and can serve as an indication of the molecular mechanism of a specific subtype of the disease. Moreover, the expression level of the regulator itself often changes slightly, which does not allow us to identify it using standard methods for searching for differentially expressed genes. Finally, the proposed approach proposes a method for integrating transcriptomal and exomic data by projecting them onto known signaling cascades. For this, a search is made for signaling cascades of statistically significantly enriched genes / proteins obtained as a result of analysis of expression data and DNA sequences. The study of these signaling cascades by an expert biologist makes it possible to construct a model for the development of a disease for an individual patient, and the study of the composition of the significant signaling cascades found for known target proteins makes it possible to offer a personalized optimal antitumor therapy.

Для решения заявленной задачи были использованы методы поиска активированных генных регуляторных сетей по транскриптомным данным. Генная сеть в простейшем случае состоит из центрального регулятора (в частности, транскрипционного фактора) и генов, чья экспрессия зависит от указанного регулятора. Важным свойством генной регуляторной сети является то, что экспрессия всех генов скоординировано реагирует на изменение состояния, например, при сравнении опухоль - норма. Распределение логарифмов величин отношения экспрессии в опухоли по отношению к норме (log-ratio) для генов, контролируемых центральным регулятором, должно статистически достоверно отличаться от фонового распределения, построенного для всех генов, измеренных в эксперименте. Для поиска активированных генных регуляторных сетей предлагается использовать алгоритм SNEA, Subnetwork Enrichment Analysis (Sivachenko A.Y., Yuryev A., Daraselia N. and Mazo I. Molecular networks in microarray analysis (2007) J Bioinform Comput Biol 5, 429-456), однако возможны и другие алгоритмы поиска активированных генов-регуляторов, т.н. upstream regulators. Пример генной сети представлен на рисунке (фиг. 1), где цветом указан относительный уровень экспресии гена в опухоли по сравнению с нормой. В этом случае регулятор экспрессии - транскрипционный фактор HNF4G имеет пониженную экспрессию в опухоли, однако регулируемые им гены (в частности, АРОА1, PKLR, CYP3A4) показывают значительно более выраженное изменение в экспрессии. Таким образом, наблюдаемое изменение экспрессии указанных генов можно объяснить понижением экспрессии самого транскрипционного фактора - регулятора.To solve the stated problem, methods were used to search for activated gene regulatory networks using transcriptional data. The gene network in the simplest case consists of a central regulator (in particular, a transcription factor) and genes whose expression depends on the specified regulator. An important property of the gene regulatory network is that the expression of all genes in a coordinated manner responds to a change in state, for example, when a tumor is compared, the norm. The distribution of the logarithms of the expression ratio in the tumor relative to the norm (log-ratio) for genes controlled by the central regulator should statistically significantly differ from the background distribution constructed for all genes measured in the experiment. To search for activated gene regulatory networks, it is proposed to use the SNEA algorithm, Subnetwork Enrichment Analysis (Sivachenko AY, Yuryev A., Daraselia N. and Mazo I. Molecular networks in microarray analysis (2007) J Bioinform Comput Biol 5, 429-456), but it is possible and other search algorithms for activated regulatory genes, the so-called upstream regulators. An example of a gene network is presented in the figure (Fig. 1), where the relative level of gene expression in the tumor is shown in color compared to the norm. In this case, the expression regulator, the transcription factor HNF4G, has reduced expression in the tumor, however, the genes regulated by it (in particular, APOA1, PKLR, CYP3A4) show a significantly more pronounced change in expression. Thus, the observed change in the expression of these genes can be explained by a decrease in the expression of the transcription factor itself, the regulator.

Поиск регуляторов, обуславливающих изменение экспрессии генов, играет важную роль при анализе молекулярных механизмов рака. Большинство онкогенов и опухолевых супрессоров как раз являются регуляторами генной экспрессии и играют ключевую роль в процессах туморогенеза, несмотря на то, что не являются наиболее дифференциально экспрессированными генами.The search for regulators responsible for the change in gene expression plays an important role in the analysis of the molecular mechanisms of cancer. Most oncogenes and tumor suppressors are precisely regulators of gene expression and play a key role in the processes of tumorigenesis, despite the fact that they are not the most differentially expressed genes.

В качестве исходных данных о межгенной регуляции используется биологическая сеть (граф) ResNet, выпускаемая компанией Elsevier. Ее особенность заключается в том, что узлы графа - всевозможные классы молекулярно-биологических сущностей (белок, ген, малая молекула, функциональный класс, клеточный процесс, комплекс, т.д.) - связаны между собой различными типами ребер, включая регуляторные (регуляция транскрипции) и физические межгенные/межбелковые взаимодействия. Важно отметить, что сеть ResNet построена с помощью методик компьютерной обработки естественного языка (Natural Language Processing, NLP) и описывает более чем 1500000 взаимодействий полученных при анализе более чем 22000000 резюме и 880000 полных текстов статей по медико-биологической тематике. Поскольку в биологической сети Resnet представлены различные типы сущностей, то при поиске активированных регуляторных сетей при помощи алгоритма SNEA в качестве регулятора может выступать другая сущность, которая не измеряется в эксперименте, например группа генов/белков (функциональный класс), клеточный процесс и т.д.As a source of data on intergenic regulation, a ResNet biological network (graph) manufactured by Elsevier is used. Its peculiarity lies in the fact that the nodes of the graph — all kinds of classes of molecular biological entities (protein, gene, small molecule, functional class, cell process, complex, etc.) —are interconnected by various types of edges, including regulatory (transcription regulation) ) and physical intergenic / protein interactions. It is important to note that the ResNet network was built using Natural Language Processing (NLP) techniques and describes more than 1,500,000 interactions obtained from the analysis of more than 22,000,000 resumes and 880,000 full-text articles on biomedical topics. Since various types of entities are represented in the Resnet biological network, when searching for activated regulatory networks using the SNEA algorithm, another entity that cannot be measured experimentally can act as a regulator, for example, a group of genes / proteins (functional class), cell process, etc. .

Полученные транскриптомные данные анализируются на предмет выявления дифференциально экспрессированных генов, т.е. генов, которые статистически значимо изменили свою экспрессию в образце опухоли по сравнению с нормой. Для этого может использоваться любой алгоритм для анализа транскриптомных данных, такой, например, как edgeR (Dimont Е., Shi J., Kirchner R., Hide W., edgeRun: an R package for sensitive, functionally relevant differential expression discovery using an unconditional exact test. Bioinformatics. 2015 Aug l;31(15:2589-90. doi: 10.1093/bioinformatics/btv209. Epub 2015 Apr 21) или DESeq (Anders S., Huber W. Differential expression analysis for sequence count data. GenomeBiol. 2010; 11(10):R106. doi: 10.1186/gb-2010-11-10-r106. Epub 2010 Oct. 27).The transcriptome data obtained are analyzed to identify differentially expressed genes, i.e. genes that statistically significantly changed their expression in the tumor sample compared to normal. For this, any algorithm for analyzing transcriptome data can be used, such as edgeR (Dimont E., Shi J., Kirchner R., Hide W., edgeRun: an R package for sensitive, functionally relevant differential expression discovery using an unconditional exact test. Bioinformatics. 2015 Aug l; 31 (15: 2589-90. doi: 10.1093 / bioinformatics / btv209. Epub 2015 Apr 21) or DESeq (Anders S., Huber W. Differential expression analysis for sequence count data. GenomeBiol. 2010; 11 (10): R106. Doi: 10.1186 / gb-2010-11-10-r106. Epub 2010 Oct. 27).

Далее обрабатываются данные по соматическим мутациям. Анализ последовательности генома (экзома) пациента дает дополнительный уровень понимания функционирования молекулярных механизмов, ответственных за развитие опухоли. Для этого используется коллекция известных канонических сигнальных путей. Такая коллекция может быть собрана из открытых источников (базы данных KEGG http://www.genome.jp/kegg/, Reactome http://www.reactome.org/, WikiPathways http://www.wikipathways.org/index.php/WikiPathways, PID http://pid.nci.nih.gov/), так и дополнена сигнальными путями, специально созданными для этой цели экспертами-биологами. Каждый сигнальный путь представляет собой набор функционально родственных генов, связанных регуляторными соотношениями и/или белок-белковыми взаимодействиями. Среди такой коллекции известных канонических сигнальных путей отбираются сигнальные пути, которые достоверно обогащены рядом "важных" генов. К таким "важным" генам относятся ранее найденные регуляторы экспрессии, дифференциально экспрессированные гены, гены с идентифицированными соматическими мутациями (полученные, например, из базы данных COSMIC, http://cancer.sanger.ac.uk/cancergenome/projects/cosmic/), гены-драйверы для которых известна из научной литературы их связь с онкологическими заболеваниями (Krishnan V.G. and Ng Р.С. Predicting cancer drivers: are we there yet? (2012) Genome Med 4, 88).Next, data on somatic mutations are processed. Sequence analysis of the patient’s genome (exoma) provides an additional level of understanding of the functioning of the molecular mechanisms responsible for tumor development. For this, a collection of well-known canonical signaling pathways is used. Such a collection can be compiled from open sources (KEGG databases http://www.genome.jp/kegg/, Reactome http://www.reactome.org/, WikiPathways http://www.wikipathways.org/index. php / WikiPathways, PID http://pid.nci.nih.gov/), and is supplemented by signaling pathways specially created for this purpose by expert biologists. Each signaling pathway is a set of functionally related genes linked by regulatory ratios and / or protein-protein interactions. Among such a collection of known canonical signaling pathways, signaling pathways that are significantly enriched in a number of “important” genes are selected. Such “important” genes include previously found expression regulators, differentially expressed genes, genes with identified somatic mutations (obtained, for example, from the COSMIC database, http://cancer.sanger.ac.uk/cancergenome/projects/cosmic/) , driver genes for which the link with cancer is known from the scientific literature (Krishnan VG and Ng P.C. Predicting cancer drivers: are we there yet? (2012) Genome Med 4, 88).

Для отбора сигнальных путей обогащенных "важными" генами используется известный из уровня техники статистический метод - точный тест Фишера (Rivals I., Personnaz L., Taing L. and Potier, M.C. Enrichment or depletion of a GO category within a class of genes: which test? (2007) Bioinformatics 23, 401-407), причем сигнальный путь считается достоверно обогащенным, если вычисленное значение уровня значимости не превышает величины 0,05.A statistical method known in the art is used to select signaling pathways enriched with "important" genes - Fisher's exact test (Rivals I., Personnaz L., Taing L. and Potier, MC Enrichment or depletion of a GO category within a class of genes: which test? (2007) Bioinformatics 23, 401-407), and the signaling pathway is considered significantly enriched if the calculated significance level does not exceed 0.05.

Таким образом, определяются сигнальные пути, активированные у индивидуального пациента и играющие потенциально значимую роль в прогрессе заболевания. Эта информация затем может быть использована экспертом-биологом для построения персонализированной модели туморогенеза, а также использована для поиска лекарственных препаратов, мишенью которых являются найденные белки.Thus, signaling pathways activated in an individual patient and playing a potentially significant role in the progress of the disease are determined. This information can then be used by an expert biologist to build a personalized model of tumorigenesis, and also used to search for drugs that target the proteins found.

Таким образом, интеграция экзомных и транскриптомных данных производится на уровне канонических сигнальных путей, активированных у данного пациента.Thus, the integration of exomic and transcriptomic data is performed at the level of the canonical signaling pathways activated in this patient.

Помимо поиска сигнальных путей, обогащенных регуляторами генной экспрессии, возможно проведение поиска сигнальных путей, на которых перепредставлены дифференциально экспрессирующиеся гены (также с помощью точного теста Фишера), которые являются потенциальными биомаркерами прогресса опухоли. Измеряя изменение экспрессии таких биомаркеров, а также взаимодействующих белков, возможно контролирование эффективности применяемой фармакотерапии.In addition to searching for signaling pathways enriched with gene expression regulators, it is possible to search for signaling pathways on which differentially expressed genes are overrepresented (also using Fisher's exact test), which are potential biomarkers of tumor progress. By measuring the change in the expression of such biomarkers, as well as interacting proteins, it is possible to control the effectiveness of the pharmacotherapy used.

Идентифицированные на предыдущем этапе сигнальные пути анализируются на предмет наличия в их составе белков-мишеней для лекарственных препаратов, предназначенных для противоопухолевой терапии, известных из литературных источников. Используя информацию о существующих лекарственных препаратах и их белках-мишенях, а также о составе найденных активированных канонических сигнальных путей, генерируются персонализированные рекомендации по оптимизации противоопухолевой фармакотерапии. Для этого проводится поиск в существующих базах данных (в частности, база DrugBank) информации о лекарственных препаратах и их мишенях на предмет присутствия белков, содержащихся в идентифицированных сигнальных путях, а именно - если белок-мишень для какого-либо лекарственного препарата, предназначенного для противоопухолевой терапии, входит в состав идентифицированного сигнального пути, то такой препарат рекомендуется пациенту для проведения химиотерапии.The signaling pathways identified at the previous stage are analyzed for their presence of target proteins for drugs intended for antitumor therapy known from literature. Using information on existing drugs and their target proteins, as well as on the composition of the found activated canonical signaling paths, personalized recommendations are generated to optimize antitumor pharmacotherapy. To do this, a search is carried out in existing databases (in particular, the DrugBank database) of information on drugs and their targets for the presence of proteins contained in the identified signaling pathways, namely, if the target protein for any drug intended for antitumor therapy, is part of the identified signaling pathway, then such a drug is recommended to the patient for chemotherapy.

Дополнительно возможен учет наличия у пациента полиморфизмов, для которых показана их связь с чувствительностью к определенному препарату. Для этого проводится поиск в существующих базах данных по фармакогеномике (в частности, база PharmGKB) на предмет присутствия аннотированных однонуклеотидных полимофизмов (SNP), для которых экспериментально установлена взаимосвязь между наличием данного SNP с и чувствительностью к терапии указанным фармакологическим препаратом.Additionally, it is possible to take into account the presence of polymorphisms in the patient, for which their relationship with sensitivity to a particular drug is shown. To do this, a search is carried out in existing databases on pharmacogenomics (in particular, the PharmGKB database) for the presence of annotated single nucleotide polymorphisms (SNPs), for which a correlation has been established between the presence of this SNP and the sensitivity to therapy of this pharmacological drug.

Таким образом, удается объединить экспертное знание относительно известных межгенных и межбелковых регуляторных взаимодействиях (канонические сигнальные каскады) с индивидуальными особенностями развития опухоли как на уровне экзома (поиск регуляторов и сигнальных путей значимо обогащенных функциональными SNP), так и на уровне транскриптома (активированные генно-регуляторные сети определяются "на лету" отдельно для каждого пациента).Thus, it is possible to combine expert knowledge on known intergenic and protein-protein regulatory interactions (canonical signaling cascades) with individual characteristics of tumor development both at the exoma level (search for regulators and signaling pathways significantly enriched with functional SNPs) and at the transcriptome level (activated gene-regulatory Networks are determined on the fly separately for each patient).

Найденные списки задействованных сигнальных путей, являющиеся результатом анализа индивидуального экзома и транскриптома, представляют значительный интерес при последующем экспертно-биологическом анализе. Отталкиваясь от найденных сигнальных путей и соответствующих межгенных и межбелковых регуляторных и других взаимодействий, эксперт-биолог может создать персонализированную модель развития онкологического заболевания в отдельном индивидууме и, соответственно, дать рекомендации относительно оптимальной противоопухолевой фармакотерапии.The found lists of involved signaling pathways resulting from the analysis of an individual exoma and transcriptome are of considerable interest in the subsequent expert biological analysis. Based on the found signaling pathways and the corresponding intergenic and interprotein regulatory and other interactions, the expert biologist can create a personalized model for the development of cancer in a single individual and, accordingly, give recommendations regarding optimal antitumor pharmacotherapy.

Краткое описание чертежейBrief Description of the Drawings

На фиг. 1 приведен пример активированной генной сети. Интенсивностью цвета закодировано изменение экспрессии в опухоли по сравнению с нормой. Незначительное изменение экспрессии регулятора (транскрипционного фактора HNF4G) приводит к существенному изменению экспрессии регулируемых им генов: АРОА1, PKLR, CYP3A4 и других генов.In FIG. 1 shows an example of an activated gene network. The color intensity encoded a change in expression in the tumor compared to normal. A slight change in the expression of the regulator (transcription factor HNF4G) leads to a significant change in the expression of the genes regulated by it: APOA1, PKLR, CYP3A4 and other genes.

Осуществление изобретенияThe implementation of the invention

Исходными данными являются набор транскриптомных данных и информация о соматических мутациях, представленная в виде набора однонуклеотидных полиморфизмов (SNP) или инделов. Экзомные и транскриптомные данные должны быть получены как для образца опухоли, так и для образца исходной (здоровой) ткани. Для экспертного анализа необходимо использование набора сигнальных каскадов (pathways), созданных специально для изучаемого онкологического заболевания и/или полученных из внешних источников. В качестве внешних источников сигнальных путей могут выступать базы KEGG, Reactome, Wikipathways и другие. Предпочтительно, чтобы наборы сигнальных путей были загружены в специализированный программный продукт, например Pathway Studio (Elsevier), IPA (Ingenuity Systems) или аналоги.The source data are a set of transcriptomic data and information about somatic mutations, presented in the form of a set of single nucleotide polymorphisms (SNPs) or indones. Exomic and transcriptomic data should be obtained for both the tumor sample and the sample of the original (healthy) tissue. For expert analysis, it is necessary to use a set of signaling cascades (pathways), created specifically for the studied cancer and / or obtained from external sources. KEGG, Reactome, Wikipathways, and others can act as external sources of signaling pathways. Preferably, the signal path sets are loaded into a specialized software product, for example Pathway Studio (Elsevier), IPA (Ingenuity Systems) or analogs.

Продемонстрируем осуществление изобретения на примере.Demonstrate the implementation of the invention by example.

Были получены образцы опухоли и здоровой ткани больного, страдающего от гепатоцеллюлярной карциномы невирусной этиологии. Было предложено провести анализ согласно данному описанию изобретения с целью подобрать максимально эффективную химиотерапию именно для указанного больного.Samples of the tumor and healthy tissue of a patient suffering from hepatocellular carcinoma of non-viral etiology were obtained. It was proposed to carry out the analysis according to this description of the invention in order to select the most effective chemotherapy specifically for the specified patient.

Биопсия была проведена во время операции по частичному хирургическому удалению опухоли. Доля содержания опухолевых клеток составила 80%. Парные образцы норма/опухоль были проанализированы методом секвенирования следующего поколения на секвенаторе Illumina HiSeq2000. Были получены как данные экзомного секвенирования, так и данные по экспрессии генов. Длина прочтения составила 100 нуклеотидов. Количество прочтений для ДНК в нормальной и опухолевой ткани составило 127243260 и 237545808 соответственно. Количество прочтений для РНК в нормальной и опухолевой ткани составило 83546978 и 107422142 соответственно.A biopsy was performed during a partial surgical removal of the tumor. The proportion of tumor cells was 80%. Paired norm / tumor samples were analyzed by the next generation sequencing method using an Illumina HiSeq2000 sequencer. Both exomic sequencing data and gene expression data were obtained. The reading length was 100 nucleotides. The number of readings for DNA in normal and tumor tissue was 127243260 and 237545808, respectively. The number of readings for RNA in normal and tumor tissue was 83546978 and 107422142, respectively.

На первом этапе анализировались данные по экспрессии генов. В таблице 1 приведена часть полученных данных.At the first stage, data on gene expression were analyzed. Table 1 shows a part of the obtained data.

Figure 00000001
Figure 00000001

Полученные транскриптомные данные были использованы для поиска активированных генных регуляторных сетей с помощью алгоритма SNEA, Subnetwork Enrichment Analysis (Sivachenko et al., 2007). Всего было идентифицировано 23 регулятора. На следующей таблице приведена часть найденных генно-регуляторных сетей, состоящих из центрального регулятора и регулируемых им генов (табл. 2).The transcriptome data obtained were used to search for activated gene regulatory networks using the SNEA algorithm, Subnetwork Enrichment Analysis (Sivachenko et al., 2007). In total, 23 regulators were identified. The following table shows a part of the found gene-regulatory networks consisting of a central regulator and genes regulated by it (Table 2).

Figure 00000002
Figure 00000002

Далее с помощью алгоритма DEseq были проанализированы транскриптомные данные на предмет выявления дифференциально экспрессированных генов. Для этого использовали алгоритм DESeq (Anders&Huber, 2010). Всего было выявлено 314 таких генов, включая гены TGFA, SRC, IGF1, FOS, TGFB1, NRG1, CDK1, AREG, ID1, SPP1, АРОА1, SMAD3, MKI67, SMAD7.Then, using the DEseq algorithm, transcriptional data were analyzed to identify differentially expressed genes. For this, the DESeq algorithm was used (Anders & Huber, 2010). A total of 314 such genes were identified, including the TGFA, SRC, IGF1, FOS, TGFB1, NRG1, CDK1, AREG, ID1, SPP1, APOA1, SMAD3, MKI67, SMAD7 genes.

Были проанализированы данные по экзомному секвенированию. Было выявлено 39 соматических несинонимических мутаций, из которых 36 мутаций представляли собой замены, две мутации являлись инсерциями и одна мутация представляла собой делецию.Exom sequencing data was analyzed. 39 somatic non-synonymous mutations were identified, of which 36 mutations were substitutions, two mutations were insertions, and one mutation was a deletion.

Среди выявленных мутаций были предсказаны потенциальные гены-драйверы онкогенеза согласно алгоритму CHASM (Carter et al., 2009). Всего было предсказано три гена: ROR2, RPS6KA5 и NRAS.Among the identified mutations, potential oncogenesis driver genes were predicted according to the CHASM algorithm (Carter et al., 2009). In total, three genes were predicted: ROR2, RPS6KA5 and NRAS.

Была создана коллекция канонических сигнальных путей, которая включала в себя данные из открытых баз данных KEGG http://www.genome.jp/kegg, Reactome http://www.reactome.org, WikiPathways http://www.wikipathways.org и PID http://pid.nci.nih.gov. Дополнительно был создан сигнальный путь, отражающий особенности функционирования EGFR-каскада в гепатоцеллюлярной карциноме. Всего в коллекцию было включено 314 сигнальных каскада.A collection of canonical signaling pathways was created, which included data from KEGG open databases http://www.genome.jp/kegg, Reactome http://www.reactome.org, WikiPathways http://www.wikipathways.org and PID http://pid.nci.nih.gov. Additionally, a signaling pathway was created that reflects the features of the functioning of the EGFR cascade in hepatocellular carcinoma. In total, 314 signaling cascades were included in the collection.

Среди сигнальных каскадов из коллекции был проведен поиск сигнальных путей, значимо обогащенных несколькими категориями "важных" генов, а именно:Among the signaling cascades from the collection, a search was made for signaling pathways that were significantly enriched in several categories of “important” genes, namely:

1) идентифицированными регуляторами генной экспрессии с помощью алгоритма SNEA;1) identified gene expression regulators using the SNEA algorithm;

2) генами с идентифицированными однонуклеотидными полиморфизмами и/или вставками/заменами, т.е. несинонимичными мутациями;2) genes with identified single nucleotide polymorphisms and / or insertions / substitutions, i.e. non-synonymous mutations;

3) генами, показывающими дифференциальную экспрессию между опухолевой и здоровой тканью;3) genes showing differential expression between tumor and healthy tissue;

4) генами-"драйверами" опухолевого процесса согласно предсказанию веб-сервера CHASM (Carter Н., Chen S., Isik L., Tyekucheva S., Velculescu V.E., Kinzler K.W., Vogelstein В. and Karchin R. Cancer-specific high-throughput annotation of somatic mutation: computational prediction of driver missense mutations (2009) Cancer Res 69, 6660-6667).4) tumor driver genes as predicted by the CHASM web server (Carter N., Chen S., Isik L., Tyekucheva S., Velculescu VE, Kinzler KW, Vogelstein B. and Karchin R. Cancer-specific high- throughput annotation of somatic mutation: computational prediction of driver missense mutations (2009) Cancer Res 69, 6660-6667).

Оценка значимости обогащения сигнального пути проводилась с помощью точного теста Фишера (Rivals et al., 2007), причем сигнальный путь считался значимо обогащенным, если вычисленное значение уровня значимости не превышает величины 0,05.The significance of signaling pathway enrichment was evaluated using Fisher's exact test (Rivals et al., 2007), and the signaling pathway was considered significantly enriched if the calculated significance level did not exceed 0.05.

Приведем пример вычисления значимости обогащения сигнального пути генами, в которых были обнаружены соматические мутации. Всего таких генов было выявлено 39. Рассмотрим сигнальный каскад BDNF signaling pathway [source:Wikipathways], в который входит 140 генов. Составляется таблица, где определяется мера перекрывания сигнального каскада и генов с соматическими мутациями (табл. 3). Например, только один ген (RPS6KA5) одновременно входит в сигнальный каскад BDNF signaling pathway [source:Wikipathways] и мутирован в образце ткани пациента, в то время как среди остальных 139 генов каскада мутаций выявлено не было.We give an example of calculating the significance of enrichment of the signaling pathway with genes in which somatic mutations were detected. A total of 39 genes were identified. Consider the BDNF signaling pathway signaling pathway [source: Wikipathways], which includes 140 genes. A table is compiled where the measure of overlapping of the signaling cascade and genes with somatic mutations is determined (Table 3). For example, only one gene (RPS6KA5) enters the BDNF signaling pathway [source: Wikipathways] at the same time and is mutated in a patient’s tissue sample, while no mutations were detected among the remaining 139 genes of the cascade.

Figure 00000003
Figure 00000003

Далее согласно точному теста Фишера вычисляется уровень значимости p по формулеNext, according to the exact Fisher test, the significance level p is calculated by the formula

Figure 00000004
Figure 00000004

где n=a+b+c+d - общее количество генов. В данном случае значение p равно 0,238. Эта величина меньше общепринятого порога 0,05, а следовательно, данный сигнальный путь не будет считаться значимо обогащенным.where n = a + b + c + d is the total number of genes. In this case, the p value is 0.238. This value is less than the generally accepted threshold of 0.05, and therefore, this signaling pathway will not be considered significantly enriched.

Ниже приведены (табл. 4) результаты поиска значимо обогащенных сигнальных путей.The results of the search for significantly enriched signaling pathways are given below (Table 4).

Figure 00000005
Figure 00000005

14fourteen

Figure 00000006
Figure 00000006

Как следует из таблицы, в исследуемом пациенте активны сигнальные пути WNT signaling, EGFR signaling, и р38-МАРК signalling. Был проведен поиск в базах данных DrugBank и PharmGKB на предмет того, существуют ли известные белки-мишени, которые входят в состав указанных сигнальных путей. В таблице 5 приведены лекарственные препараты и их белки-мишени, входящие в состав указанных сигнальных путей.As follows from the table, the WNT signaling, EGFR signaling, and p38-MAPK signaling pathways are active in the studied patient. A search was made in the DrugBank and PharmGKB databases to determine whether there are known target proteins that are part of these signaling pathways. Table 5 shows the drugs and their target proteins that are part of these signaling pathways.

Figure 00000007
Figure 00000007

На сегодняшний момент лекарственные препараты, ингибирующие сигнальный каскад WNT (например, Vantictumab, OTSA101 и OMP-54F28), пока находятся в первой фазе клинических испытаний (Blagodatski et al., 2014). В то же время для сигнального каскада EGFR signalling существует ряд активно использующихся в клинике препаратов, а именно такие лекарственные средства как гефитиниб и эрлотиниб (Dienstmann R., De Dosso S., Felip E. and Tabernero J., Drug development to overcome resistance to EGFR inhibitors in lung and colorectal cancer. Mol Oncol. 2012 Feb; 6(1): 15-26. doi:10.1016/j.molonc.2011.11.009. Epub 2011 Dec 6). Перспективно также применение кверцетина, как действующего на сигнальный каскад р38 MAPK (Chen S.F., Nieh S., Jao S.W., Liu C.L., Wu С.H., Chang C.Y. and Lin Y.S. Quercetin suppresses drug-resistant spheres via the p38 MAPK-Hsp27 apoptotic pathway in oral cancer cells (2012) PLoS One 7, e49275), но в то же время не являющегося препаратом выбора для лечения онкологических заболеваний.Currently, drugs that inhibit the WNT signaling cascade (for example, Vantictumab, OTSA101 and OMP-54F28) are still in the first phase of clinical trials (Blagodatski et al., 2014). At the same time, for the EGFR signaling signaling cascade, there are a number of drugs actively used in the clinic, namely such drugs as gefitinib and erlotinib (Dienstmann R., De Dosso S., Felip E. and Tabernero J., Drug development to overcome resistance to EGFR inhibitors in lung and colorectal cancer. Mol Oncol. 2012 Feb; 6 (1): 15-26. Doi: 10.1016 / j.molonc. 2011.11.009. Epub 2011 Dec 6). The use of quercetin as acting on the p38 MAPK signaling cascade is also promising (Chen SF, Nieh S., Jao SW, Liu CL, Wu C.H., Chang CY and Lin YS Quercetin suppresses drug-resistant spheres via the p38 MAPK-Hsp27 apoptotic pathway in oral cancer cells (2012) PLoS One 7, e49275), but at the same time not a drug of choice for the treatment of cancer.

Список найденных мутаций был проанализирован на наличие полиморфизмов, для которых известна их связь с чувствительностью к какому-либо препарату. Была выявлена мутация в гене FAS (1377G/A), для которой была показана повышенная чувствительность клеток опухоли к препарату (Ma F., Liao Y., Zi-Ping W., Xu В. Single nucleotide polymorphisms in FAS and FASL and sensitivity to gefitinib in patients with advanced non-smal cell lung cancer, J Clin Oncol 28, 2010 (suppl; abstr e13529)). Также была обнаружена герминативная однонуклеотидная замена в гене DPYD (C29R) которая ассоциирована с пониженной чувствительностью к 5-фторурацилу (Offer S.М., Wegner N.J., Fossum С., Wang K., Diasio R.B. Phenotypic profiling of DPYD variations relevant to 5-fluorouracil sensitivity using real-time cellular analysis and in vitro measurement of enzyme activity, Cancer Res. 2013 Mar 15; 73(6):1958-68. doi: 10.1158/0008-5472. CAN-12-3858. Epub 2013 Jan 17).The list of mutations found was analyzed for the presence of polymorphisms, for which their relationship with sensitivity to any drug is known. A mutation was detected in the FAS gene (1377G / A), for which an increased sensitivity of tumor cells to the drug was shown (Ma F., Liao Y., Zi-Ping W., Xu B. Single nucleotide polymorphisms in FAS and FASL and sensitivity to gefitinib in patients with advanced non-smal cell lung cancer, J Clin Oncol 28, 2010 (suppl; abstr e13529)). A germinative single nucleotide substitution in the DPYD gene (C29R) was also found, which is associated with a decreased sensitivity to 5-fluorouracil (Offer S.M., Wegner NJ, Fossum C., Wang K., Diasio RB Phenotypic profiling of DPYD variations relevant to 5- fluorouracil sensitivity using real-time cellular analysis and in vitro measurement of enzyme activity, Cancer Res. 2013 Mar 15; 73 (6): 1958-68. doi: 10.1158 / 0008-5472. CAN-12-3858. Epub 2013 Jan 17 )

Итого были сформированы рекомендации по персонализированной противоопухолевой терапии на основе анализа данных о последовательностях и экспрессии генов для индивидуального пациента.In total, recommendations were made on personalized antitumor therapy based on the analysis of sequence data and gene expression for an individual patient.

Химиотерапевтом было одобрено применение гефитиниба как препарата, ингибирующего EGFR-signalling каскад, а также вследствие наличия у пациента полиморфизма, обуславливающего повышенную чувствительность к данному лекарству. В результате лечения гефитинибом у пациента удалось добиться стойкой ремиссии заболевания. Таким образом, была подтверждена эффективность патентуемого метода по идентификации белков-мишеней, запускающих процесс канцерогенеза у индивидуального пациента, для последующей противоопухолевой фармакотерапии.The chemotherapist approved the use of gefitinib as a drug that inhibits the EGFR-signalling cascade, as well as due to the patient's polymorphism, which causes increased sensitivity to this drug. As a result of treatment with gefitinib, the patient managed to achieve a stable remission of the disease. Thus, the effectiveness of the patented method for the identification of target proteins that trigger the carcinogenesis process in an individual patient for subsequent antitumor pharmacotherapy was confirmed.

Claims (1)

Способ поиска белков-мишеней, запускающих процесс канцерогенеза, в образцах тканей индивидуального пациента, для последующей противоопухолевой фармакотерапии, включающий следующие стадии:
а) определение методом секвенирования следующего поколения транскриптомных данных об уровнях экспрессии генов в образцах, полученных из ткани опухоли и здоровой ткани индивидуального пациента с последующей обработкой полученных данных с помощью алгоритма Subnetwork Enrichment Analysis и получением набора активированных генно-регуляторных сетей, состоящих из центрального гена регулятора и регулируемых им генов;
б) определение из транскриптомных данных дифференциально экспрессированных генов с помощью алгоритма DEseq;
в) определение методами секвенирования изменений в последовательностях ДНК, представленных в виде набора однонуклеотидных полиморфизмов и инделов в образцах, полученных из ткани опухоли и здоровой ткани индивидуального пациента;
г) определение среди найденных генетических вариантов генов-драйверов с помощью алгоритма Cancer-specific High-throughput Annotation of Somatic Mutations;
д) поиск канонических сигнальных путей, значимо обогащенных ранее найденными центральными генами регуляторами экспрессии, дифференциально экспрессированными генами, генами с идентифицированными однонуклеотидными полиморфизмами и инделами, генами-драйверами, для отбора сигнальных путей используют точный тест Фишера;
е) поиск методом перебора в составе идентифицированных сигнальных путей существующих белков-мишеней для лекарственных препаратов, предназначенных для противоопухолевой терапии, причем из найденных белков-мишеней выбирают белки с учетом имеющихся у пациента полиморфизмов, для которых установлена их связь с чувствительностью к определенному препарату.
A method of searching for target proteins that trigger the carcinogenesis process in tissue samples of an individual patient for subsequent antitumor pharmacotherapy, which includes the following stages:
a) sequencing the next generation of transcriptome data on the levels of gene expression in samples obtained from tumor tissue and healthy tissue of an individual patient, followed by processing the data using the Subnetwork Enrichment Analysis algorithm and obtaining a set of activated gene-regulatory networks consisting of a central regulatory gene and genes regulated by him;
b) determination of transcriptionally data of differentially expressed genes using the DEseq algorithm;
c) determination by sequencing methods of changes in DNA sequences presented as a set of single nucleotide polymorphisms and indels in samples obtained from tumor tissue and healthy tissue of an individual patient;
d) determining among the found genetic variants of driver genes using the Cancer-specific High-throughput Annotation of Somatic Mutations algorithm;
e) the search for canonical signaling pathways that are significantly enriched with previously found central genes for expression regulators, differentially expressed genes, genes with identified single nucleotide polymorphisms and indices, driver genes, Fisher's exact test is used to select signaling pathways;
f) a search by enumeration of the existing target proteins for drugs intended for antitumor therapy as part of the identified signal pathways, and from the found target proteins, proteins are selected taking into account the patient’s polymorphisms, for which their relationship with sensitivity to a particular drug has been established.
RU2013144622/10A 2013-10-04 2013-10-04 Method for searching target proteins triggering process of carcinogenesis, in individual patient's tissue samples for purposes of subsequent antitumour medicinal treatment RU2577107C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2013144622/10A RU2577107C2 (en) 2013-10-04 2013-10-04 Method for searching target proteins triggering process of carcinogenesis, in individual patient's tissue samples for purposes of subsequent antitumour medicinal treatment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013144622/10A RU2577107C2 (en) 2013-10-04 2013-10-04 Method for searching target proteins triggering process of carcinogenesis, in individual patient's tissue samples for purposes of subsequent antitumour medicinal treatment

Publications (2)

Publication Number Publication Date
RU2013144622A RU2013144622A (en) 2015-04-10
RU2577107C2 true RU2577107C2 (en) 2016-03-10

Family

ID=53282491

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013144622/10A RU2577107C2 (en) 2013-10-04 2013-10-04 Method for searching target proteins triggering process of carcinogenesis, in individual patient's tissue samples for purposes of subsequent antitumour medicinal treatment

Country Status (1)

Country Link
RU (1) RU2577107C2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025570A2 (en) * 2000-09-07 2002-03-28 Arrayex, Inc. Systems, methods and computer program products for processing genomic data in an object-oriented environment
WO2012122127A2 (en) * 2011-03-04 2012-09-13 Kew Group, Llc Personalized medical management system, networks, and methods
RU2464320C2 (en) * 2004-09-24 2012-10-20 Инджиниес Инк. Genome analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025570A2 (en) * 2000-09-07 2002-03-28 Arrayex, Inc. Systems, methods and computer program products for processing genomic data in an object-oriented environment
RU2464320C2 (en) * 2004-09-24 2012-10-20 Инджиниес Инк. Genome analysis
WO2012122127A2 (en) * 2011-03-04 2012-09-13 Kew Group, Llc Personalized medical management system, networks, and methods

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KOTELNIKOVA E. ET AL, Novel Approach to Meta-Analysis of Microarray Datasets Reveals Muscle Remodeling-related Drug Targets and Biomarkers in Duchenne Muscular Dystrophy, PLoS Computational Biology, 2012, v. 8, no. 2, e1002365, pp. 1-12. JIA P. ET AL., A comprehensive network and pathway analysis of candidate genes in major depressive disorder, BMC Systems Biology 2011, v.5, S12, pp. 1-13. *

Also Published As

Publication number Publication date
RU2013144622A (en) 2015-04-10

Similar Documents

Publication Publication Date Title
Heo et al. Integrative multi-omics approaches in cancer research: from biological networks to clinical subtypes
Kristensen et al. Principles and methods of integrative genomic analyses in cancer
Riddick et al. Integration and analysis of genome-scale data from gliomas
Tomczak et al. Review The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge
Zhang et al. Integrating genomic, epigenomic, and transcriptomic features reveals modular signatures underlying poor prognosis in ovarian cancer
Jörnsten et al. Network modeling of the transcriptional effects of copy number aberrations in glioblastoma
Wei et al. Integrative analysis of MicroRNA and gene interactions for revealing candidate signatures in prostate cancer
Champion et al. Module analysis captures pancancer genetically and epigenetically deregulated cancer driver genes for smoking and antiviral response
Tran et al. Inferring causal genomic alterations in breast cancer using gene expression data
Cheng et al. Investigating cellular network heterogeneity and modularity in cancer: a network entropy and unbalanced motif approach
Zhang et al. Identification of biomarkers associated with the recurrence of osteosarcoma using ceRNA regulatory network analysis
Zhou et al. Combination of TNM staging and pathway based risk score models in patients with gastric cancer
KR20210103452A (en) Bio-Marker Composition for Prediction of Drug for Blood cancer Sensitivity, Estimation Method for Prediction of Drug for Blood cancer Sensitivity using Bio-Marker Composition and Diagnosing Chip for Detection of Bio-Marker Composition for Prediction of Drug for Blood cancer Sensitivity
Wei et al. Construction of circRNA-based ceRNA network to reveal the role of circRNAs in the progression and prognosis of metastatic clear cell renal cell carcinoma
Hou et al. Potential prognostic biomarkers of lung adenocarcinoma based on bioinformatic analysis
Ruan et al. A novel algorithm for network-based prediction of cancer recurrence
Khozyainova et al. Complex analysis of single-cell RNA sequencing data
Giannuzzi et al. Integrated analysis of transcriptome, methylome and copy number aberrations data of marginal zone lymphoma and follicular lymphoma in dog
Zhou et al. Integrated microRNA-mRNA analysis revealing the potential roles of microRNAs in tongue squamous cell cancer
Yan et al. Individualized analysis of differentially expressed miRNAs with application to the identification of miRNAs deregulated commonly in lung cancer tissues
MacNeil et al. Inferring pathway dysregulation in cancers from multiple types of omic data
Bendall et al. Specific human endogenous retroviruses predict metastatic potential in uveal melanoma
Lu et al. Systematic pan‑cancer analysis identifies CDC45 as having an oncogenic role in human cancers
Zhao et al. A Robust Gene Expression Prognostic Signature for Overall Survival in High‐Grade Serous Ovarian Cancer
Ning et al. Topologically inferring active miRNA‐mediated subpathways toward precise cancer classification by directed random walk

Legal Events

Date Code Title Description
FA92 Acknowledgement of application withdrawn (lack of supplementary materials submitted)

Effective date: 20150210

FZ9A Application not withdrawn (correction of the notice of withdrawal)

Effective date: 20150415

PD4A Correction of name of patent owner