KR20200042295A - A drug repositioning system using network-based gene set enrichment analysis method - Google Patents

A drug repositioning system using network-based gene set enrichment analysis method Download PDF

Info

Publication number
KR20200042295A
KR20200042295A KR1020180122701A KR20180122701A KR20200042295A KR 20200042295 A KR20200042295 A KR 20200042295A KR 1020180122701 A KR1020180122701 A KR 1020180122701A KR 20180122701 A KR20180122701 A KR 20180122701A KR 20200042295 A KR20200042295 A KR 20200042295A
Authority
KR
South Korea
Prior art keywords
gene
network
database
drug
org
Prior art date
Application number
KR1020180122701A
Other languages
Korean (ko)
Other versions
KR102230156B1 (en
Inventor
이인석
한헌종
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020180122701A priority Critical patent/KR102230156B1/en
Publication of KR20200042295A publication Critical patent/KR20200042295A/en
Application granted granted Critical
Publication of KR102230156B1 publication Critical patent/KR102230156B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

The present invention relates to a network-based gene set augmentation analysis method. According to the present invention, provided is a method for effectively identify a set of pathway genes matching a gene expression phenotype by analyzing functional networks of neighboring genes as well as single genes. In addition, provided is a method for repositioning a known drug utilizing the method of the present invention.

Description

네트워크 기반의 유전자 세트 증강 분석 방법을 이용한 약물 재창출 방법{A DRUG REPOSITIONING SYSTEM USING NETWORK-BASED GENE SET ENRICHMENT ANALYSIS METHOD}A DRUG REPOSITIONING SYSTEM USING NETWORK-BASED GENE SET ENRICHMENT ANALYSIS METHOD}

본 발명은 네트워크 기반의 유전자 세트 증강 분석 방법 및 이를 이용한 약물 재창출 방법에 관한 것이다.The present invention relates to a network-based gene set augmentation analysis method and a drug re-creation method using the same.

임상 표본의 분자 표현형은 질병 진단, 환자 계층화, 약물 발견 등에 유용하게 활용되고 있다. 유전자 발현 프로파일링은 임상 표본의 분자 표현형 분석을 위한 가장 접근하기 쉬운 전략이다. The molecular phenotype of clinical specimens is useful for disease diagnosis, patient stratification, and drug discovery. Gene expression profiling is the most accessible strategy for molecular phenotypic analysis of clinical specimens.

DNA 칩 기술 및 RNA sequencing은 환자 유래 일차 세포 및 세포주의 분자 프로파일링에 사용된다.DNA chip technology and RNA sequencing are used for molecular profiling of patient-derived primary cells and cell lines.

임상 표본의 수많은 유전자 발현 프로파일은 Gene Expression Omnibus(GEO) 및 NCI Genomic Data Commons(GDC)와 같은 공공 데이터베이스에서 자유롭게 이용할 수 있다. 게놈 전반의 표현형에 대한 기능 분석은 일반적으로 개개의 유전자가 아닌 주석이 달린 유전자 세트로 해석이 가능하다. Numerous gene expression profiles of clinical specimens are freely available from public databases such as Gene Expression Omnibus (GEO) and NCI Genomic Data Commons (GDC). Functional analysis of genome-wide phenotypes can generally be interpreted as a set of annotated genes rather than individual genes.

따라서 최근 유전자 세트 분석(Gene Set Analysis)을 위한 다양한 알고리듬들이 개발되었다. 이들 중 많은 방법들이 임상표본에서 특이적으로 발현하는 유전자들과 유전자 세트 사이 중복의 통계적인 유의미성을 측정하는 방법으로 이들을 over-representation 접근법으로 분류한다. 상기 분석 방법들은 상당히 합리적이지만 임상시료 특이적 발현 정도에 의한 중요성이 낮은 유전자를 무의미한 유전자로 취급하는 문제점이 있다. 이를 보완하기 위해 개발된 방법이 유전자 세트 증강 분석(Gene Set Enrichment Analaysis; GSEA)이다. Therefore, various algorithms for gene set analysis have recently been developed. Many of these methods classify them as over-representation approaches by measuring the statistical significance of overlap between genes and gene sets specifically expressed in clinical samples. Although the above analysis methods are reasonably reasonable, there is a problem in that genes having low importance due to the degree of specific expression in clinical samples are treated as meaningless genes. A method developed to complement this is Gene Set Enrichment Analaysis (GSEA).

그러나 상기 방법도 실제 질환에 원인이 되는 유전자들 보다는 원인유전자의 조절을 받아 발현에 영향을 크게 보이는 유전자들을 중심으로 분석이 되는 단점을 가지고 있다.However, the method also has a drawback in that it analyzes mainly genes that have a large influence on expression under the control of the causal gene rather than genes that cause the disease.

본 발명자들은 질병과 관련된 유전자들은 실제로 기능적으로 연관된 다른 유전자의 발현을 더 크게 변화시킬 가능성이 높으므로 유전자의 발현 데이터를 기반으로 한 유전자 세트 분석은 유전자들의 기능적인 네트워크 상에서 각 유전자의 이웃하는 모든 유전자들의 발현 정보를 고려하여 분석해야 한다고 가정하였다.Since the present inventors are more likely to change the expression of other genes that are actually functionally related to diseases, gene set analysis based on the gene expression data is performed on all neighboring genes of each gene on the functional network of genes. It was assumed that they should be analyzed in consideration of their expression information.

이에, 본 발명자들은 각 유전자의 이웃하는 유전자들의 발현 정보를 통합하여 유전자 세트 증강 분석을 진행하기 위한 네트워크 기반 점수(Natwork-based score; NS)를 개발하였고, 상기 점수를 이용하여 네트워크 기반의 유전자 세트 증강 분석(Network-based Gene Set Enrichment Analysis)을 수행하였다.Accordingly, the present inventors have developed a network-based score (Natwork-based score) NS for performing gene set augmentation analysis by integrating expression information of neighboring genes of each gene, and using the score, a network-based gene set Augmented analysis (Network-based Gene Set Enrichment Analysis) was performed.

또한, 본 발명자들은 상기 네트워크 기반의 유전자 세트 증강 분석을 통해 알려진 약물 중에서 새롭게 질병을 치료할 수 있는 약물을 재창출하는 예측 방법을 개발하였다.In addition, the present inventors have developed a predictive method for re-creating a drug that can newly treat a disease among known drugs through the network-based gene set augmentation analysis.

본 발명은 전술한 종래기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 유전자 네트워크를 통해 유전자 세트 증강 분석을 개선하고, 질병에 대한 약물을 재창출하는 시스템을 제공하는 것이다.The present invention is to solve the above-mentioned problems of the prior art, and an object of the present invention is to provide a system for improving gene set augmentation analysis through a gene network and re-creating drugs against diseases.

본 발명의 일 측면에 따르면, (a) 유전자 발현 데이터를 포함하는 유전자 세트 정보를 상용화된 데이터베이스로부터 수집하는 단계; (b) 상기 수집된 유전자 세트와 상호작용하는 유전자 세트를 선별하는 단계; 및 (c) 네트워크 기반 점수(Natwork-based score; NS) 측정법에 기반하여 상기 상호작용하는 유전자 세트 사이의 기능적 연관성을 통합하는 단계;를 포함하는 네트워크 기반의 유전자 세트 증강 분석(Network-based gene set enrichment analysis; NGSEA)을 수행하는 방법이 제공된다.According to an aspect of the present invention, (a) collecting gene set information including gene expression data from a commercialized database; (b) selecting a gene set that interacts with the collected gene set; And (c) integrating functional associations between the interacting gene sets based on a network-based score (NS) metric; and network-based gene set analysis. Methods for performing enrichment analysis (NGSEA) are provided.

일 실시예에 있어서, 상기 네트워크 기반 점수는 하기 수식 1에 의해 산출될 수 있다.In one embodiment, the network-based score may be calculated by Equation 1 below.

[수식 1][Equation 1]

Figure pat00001
Figure pat00001

상기 ni는 i 번째 유전자의 네트워크 이웃의 수이고, 상기 xi 및 xj는 각각 i 및 j 번째 유전자의 발현 점수이다.The n i is the number of network neighbors of the i-th gene, and x i and x j are the expression scores of the i and j-th genes, respectively.

일 실시예에 있어서, 상기 유전자 세트에 대한 정보는 KEGG PATHWAY Database(https://www.genome.jp/kegg/pathway.html), Drug SIGnatures DataBase(http://tanlab.ucdenver.edu/DSigDB/DSigDBv1.0/), Gene Ontology Consortium(http://www.geneontology.org), DisGeNET(http://www.DisGeNET.org) 및 Diseases(https://diseases.jensenlab.org)를 포함하는 데이터베이스 군으로부터 선택되는 어느 하나 이상의 데이터베이스로부터 획득할 수 있다.In one embodiment, the information on the gene set is KEGG PATHWAY Database (https://www.genome.jp/kegg/pathway.html), Drug SIGnatures DataBase (http://tanlab.ucdenver.edu/DSigDB/ Database including DSigDBv1.0 /), Gene Ontology Consortium (http://www.geneontology.org), DisGeNET (http://www.DisGeNET.org) and Diseases (https://diseases.jensenlab.org) It can be obtained from any one or more databases selected from the group.

일 실시예에 있어서, 상기 유전자 세트 사이의 기능적 연관성은 게놈 규모의 기능 유전자 네트워크로 구현될 수 있다.In one embodiment, functional association between the gene sets may be implemented in a genomic-scale functional gene network.

일 실시예에 있어서, 상기 네트워크 기반의 유전자 세트 증강 분석은 합산 점수 접근법(aggregate score approach)을 통해 수행될 수 있다.In one embodiment, the network-based gene set enhancement analysis may be performed through an aggregate score approach.

본 발명의 다른 측면에 따르면, (a) 약물에 대한 질병 유전자 발현 데이터 세트의 정보를 상용화된 데이터베이스로부터 수집하는 단계; 및 (b) 상기 질병 유전자 발현 데이터 세트를 네트워크 기반 점수에 따라 우선순위를 나열하여 질병과의 연관성을 평가하는 단계;를 포함하는 약물 재창출 예측시스템이 제공된다.According to another aspect of the present invention, (a) collecting information of a disease gene expression data set for a drug from a commercialized database; And (b) evaluating the association with the disease by listing the disease gene expression data sets in order of priority according to a network-based score.

일 실시예에 있어서, 상기 약물에 대한 정보는 Comparative Toxicogenomics Database(http://ctdbase.org/) 또는 PubChem 데이터베이스(https://ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/)를 포함하는 데이터베이스에서 획득할 수 있다.In one embodiment, the information on the drug is Comparative Toxicogenomics Database (http://ctdbase.org/) or PubChem database (https://ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/) It can be obtained from the database including.

일 실시예에 있어서, 상기 약물에 대한 질병 유전자 발현 데이터 세트는 Bioconductor(https://bioconductor.org/packages/release/data/experiment/html/KEGGdzPathwaysGEO.html), 를 포함하는 데이터베이스 군으로부터 선택되는 어느 하나 이상의 데이터베이스로부터 획득할 수 있다.In one embodiment, the disease gene expression data set for the drug is selected from the database group comprising Bioconductor (https://bioconductor.org/packages/release/data/experiment/html/KEGGdzPathwaysGEO.html), It can be obtained from more than one database.

일 실시예에 있어서, 상기 약물 재창출 방법은 (c) 상기 약물을 질병 세포에 처리하여 치료 효과를 평가하는 단계;를 더 포함할 수 있다.In one embodiment, the method for re-creating the drug may further include (c) evaluating the treatment effect by treating the drug with diseased cells.

본 발명의 일 측면에 따른 유전자 세트 증강 분석 방법은 이웃하는 유전자 세트간의 연관성을 분석하고 이를 정량화할 수 있으므로, 질병 연관 유전자 발굴 및 약물 재창출 방법을 위한 유의적인 데이터를 효과적으로 제공할 수 있다.The gene set augmentation analysis method according to an aspect of the present invention can analyze and quantify associations between neighboring gene sets, thereby effectively providing significant data for disease-related gene discovery and drug re-creation methods.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.It should be understood that the effects of the present invention are not limited to the above-described effects, and include all effects that can be deduced from the configuration of the invention described in the detailed description or claims of the present invention.

도 1은 본 발명에 따른 네트워크 기반의 유전자 세트 증강 분석(NGSEA) 방법의 모식도를 나타낸 것이다.
도 2는 GSEA, AE 및 NGSEA에 의해 일치된 질병 발현 데이터 세트에 대한 관련 KEGG pathway의 예측력을 나타낸 것으로, (A) 는 GSEA, AE 및 NGSEA에서 KEGG pathway 용어와 일치하는 순위 분포를 나타낸 것이고, (B) 는 GSEA 및 NGSEA에서 KEGG pathway 용어와 일치하는 순위 구성을 나타낸 것이며, (C) 는 동일 또는 다른 질병에서 Pearson's correlation coefficient(PCC)의 normalized enrichment scores(NES) 분포를 나타낸 것이며, (D) 는 Alzheimer's disease(HSA05010) 및 Staphylococcus aureus infection(HSA05150)에서 KEGG pathway 용어의 서브네트워크를 나타낸 것이고, (E) 는 acute myeloid leukemia(HSA05221) 및 taste transduction(HSA04742) 에서 KEGG pathway 용어의 서브네트워크를 나타낸 것이다.
도 3은 CMap 및 NGSEA에 의해 일치된 질병 발현 데이터에 대한 알려진 약물 검색 결과를 나타낸 것으로, (A)는 NGSEA에 따른 약물 검색 방법의 모식도이고, (B)는 CMap 및 NGSEA의 검색 능력을 AUROC로 비교한 결과를 나타낸 것이다.
도 4(A)는 CMap 및 NGSEA에서 대장암(GSE9348) 치료를 위해 알려진 약물 검색 결과를 ROC 곡선으로 나타낸 것이고, 도 4(B)는 NGSEA로 대장암 치료를 위해 예측된 상위 30 가지 화학 물질을 나타낸 것이고, 도 4(C)는 다양한 농도(0 내지 250 μM)의 budesonide를 HCT-116 세포주에 처리 후 세포 생존력을 나타낸 것이며, 도 4(D)는 다양한 농도(0 내지 250 μM)의 budesonide를 HT-29 세포주에 처리 후 세포 생존력을 나타낸 것이다.
1 shows a schematic diagram of a network-based gene set enhancement analysis (NGSEA) method according to the present invention.
Figure 2 shows the predictive power of the relevant KEGG pathway for the disease expression data set matched by GSEA, AE and NGSEA, (A) shows the ranking distribution consistent with the KEGG pathway term in GSEA, AE and NGSEA, ( B) shows the ranking composition consistent with the KEGG pathway term in GSEA and NGSEA, (C) shows the normalized enrichment scores (NES) distribution of Pearson's correlation coefficient (PCC) in the same or different diseases, (D) is The subnetwork of the KEGG pathway term in Alzheimer's disease (HSA05010) and Staphylococcus aureus infection (HSA05150) is shown, and (E) the subnetwork of the KEGG pathway term in acute myeloid leukemia (HSA05221) and taste transduction (HSA04742).
Figure 3 shows the known drug search results for the disease expression data matched by CMap and NGSEA, (A) is a schematic diagram of the drug search method according to NGSEA, (B) is the search ability of CMap and NGSEA AUROC The results are compared.
FIG. 4 (A) shows the results of drug search for treatment of colorectal cancer (GSE9348) in CMap and NGSEA with an ROC curve, and FIG. 4 (B) shows the top 30 chemicals predicted for colorectal cancer treatment with NGSEA. 4 (C) shows cell viability after treatment with various concentrations (0-250 μM) of budesonide in HCT-116 cell line, and FIG. 4 (D) shows budesonide of various concentrations (0-250 μM). Cell viability after treatment on HT-29 cell line.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시 예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, the present invention will be described with reference to the accompanying drawings. However, the present invention may be implemented in various different forms, and thus is not limited to the embodiments described herein. In addition, in order to clearly describe the present invention in the drawings, parts irrelevant to the description are omitted, and like reference numerals are assigned to similar parts throughout the specification.

어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.When a part is said to "include" a certain component, this means that other components may be further provided instead of excluding the other component unless otherwise stated.

달리 정의되지 않는 한, 분자 생물학, 미생물학, 단백질 정제, 단백질 공학, 및 DNA 서열 분석 및 당업자의 능력 범위 안에서 재조합 DNA 분야에서 흔히 사용되는 통상적인 기술에 의해 수행될 수 있다. 상기 기술들은 당업자에게 알려져 있고, 많은 표준화된 교재 및 참고저서에 기술되어 있다.Unless otherwise defined, molecular biology, microbiology, protein purification, protein engineering, and DNA sequencing and routine techniques commonly used in the field of recombinant DNA within the capabilities of those skilled in the art can be performed. These techniques are known to those skilled in the art and are described in many standardized textbooks and reference books.

본 명세서에 달리 정의되어 있지 않으면, 사용된 모든 기술 및 과학 용어는 당업계에 통상의 기술자가 통상적으로 이해하는 바와 같은 의미를 가진다.Unless defined otherwise herein, all technical and scientific terms used have the meaning as commonly understood by one of ordinary skill in the art.

본 명세서에 포함되는 용어를 포함하는 다양한 과학적 사전이 잘 알려져 있고, 당업계에서 이용 가능하다. 본 명세서에 설명된 것과 유사 또는 등가인 임의의 방법 및 물질이 본원의 실행 또는 시험에 사용되는 것으로 발견되나, 몇몇 방법 및 물질이 설명되어 있다. 당업자가 사용하는 맥락에 따라, 다양하게 사용될 수 있기 때문에, 특정 방법론, 프로토콜 및 시약으로 본 발명이 제한되는 것은 아니다.Various scientific dictionaries including terms included herein are well known and available in the art. Although any methods and materials similar or equivalent to those described herein are found to be used in the practice or testing herein, several methods and materials are described. Depending on the context used by those skilled in the art, the present invention is not limited to specific methodologies, protocols, and reagents because it can be used in various ways.

본 명세서에서 사용되는 바와 같이, 단수형은 문맥이 명확하게 달리 지시하지 않으면 복수의 대상을 포함한다.As used herein, a singular form includes a plurality of objects unless the context clearly dictates otherwise.

이하 본 발명을 더욱 상세히 설명한다.Hereinafter, the present invention will be described in more detail.

본 발명의 일 측면에 따르면, (a) 유전자 발현 데이터를 포함하는 유전자 세트 정보를 상용화된 데이터베이스로부터 수집하는 단계; (b) 상기 수집된 유전자 세트와 상호작용하는 유전자 세트를 선별하는 단계; 및 (c) 네트워크 기반 점수(Network-based score; NS) 측정법에 기반하여 상기 상호작용하는 유전자 세트 사이의 기능적 연관성을 통합하는 단계;를 포함하는 네트워크 기반의 유전자 세트 증강 분석(Network-based gene set enrichment analysis; NGSEA)을 수행하는 방법이 제공된다.According to an aspect of the present invention, (a) collecting gene set information including gene expression data from a commercialized database; (b) selecting a gene set that interacts with the collected gene set; And (c) integrating functional associations between the interacting gene sets based on a network-based score (NS) metric; network-based gene set analysis. Methods for performing enrichment analysis (NGSEA) are provided.

도 1은 본 발명에 따른 네트워크 기반의 유전자 세트 증강 분석 방법의 전체적인 모식도를 나타낸 것이다.1 shows an overall schematic diagram of a network-based gene set augmentation analysis method according to the present invention.

상기 네트워크 기반 점수는 하기 수식 1에 의해 산출될 수 있다.The network-based score can be calculated by Equation 1 below.

[수식 1][Equation 1]

Figure pat00002
Figure pat00002

상기 ni는 i 번째 유전자의 네트워크 이웃의 수이고, 상기 xi 및 xj는 각각 i 및 j 번째 유전자의 발현점수이다.The n i is the number of network neighbors of the i-th gene, and x i and x j are the expression scores of the i and j-th genes, respectively.

상기 수식 1에서 유전자의 점수를 절대값으로 책정함으로써 이웃하는 유전자 세트와의 상호작용을 모두 적용할 수 있다.In Equation 1, by setting the score of a gene as an absolute value, all interactions with neighboring gene sets can be applied.

예를 들어, 유전자 세트 A의 네트워크 이웃인 B 및 C가 존재하고, B 및 C는 각각 A와 상호작용을 하여 A의 발현을 상향(+) 및 하향(-) 조절하는 경우, 유전자 점수에 절대값을 씌우지 않고 더하면, B 및 C에 의한 상호작용 값이 상쇄될 수 있으나, 각 값에 절대값을 씌우면 B 및 C에 의한 상호작용 점수가 네트워크 기반 점수에 온전히 적용될 수 있다.For example, if there are network neighbors B and C of gene set A, and B and C interact with A, respectively, to regulate the expression of A up (+) and down (-), the absolute gene score If you add without putting a value, the interaction value by B and C may be canceled, but if you put an absolute value in each value, the interaction score by B and C can be completely applied to the network-based score.

상기 유전자 세트에 대한 정보는 상용화된 데이터베이스에서 수집할 수 있으며, 상기 상용화된 데이터 베이스는 유전자 세트의 정보를 저장하는 데이터베이스로서, KEGG PATHWAY Database(https://www.genome.jp/kegg/pathway.html), Drug SIGnatures DataBase(http://tanlab.ucdenver.edu/DSigDB/DSigDBv1.0/), Gene Ontology Consortium(http://www.geneontology.org), DisGeNET(http://www.DisGeNET.org) 및 Diseases(https://diseases.jensenlab.org)를 포함하는 데이터베이스 군으로부터 선택되는 어느 하나 이상의 데이터베이스일 수 있으나, 이에 제한되지 않는다.Information on the gene set can be collected from a commercialized database, and the commercialized database is a database for storing information on a gene set, KEGG PATHWAY Database (https://www.genome.jp/kegg/pathway. html), Drug SIGnatures Database (http://tanlab.ucdenver.edu/DSigDB/DSigDBv1.0/), Gene Ontology Consortium (http://www.geneontology.org), DisGeNET (http: //www.DisGeNET. org) and Diseases (https://diseases.jensenlab.org), but may be any one or more databases selected from the group.

상기 유전자 세트 사이의 기능적 연관성은 게놈 규모의 기능 유전자 네트워크로 구현될 수 있다.Functional associations between the gene sets can be implemented in a genomic-scale functional gene network.

유전자 세트 발현 분석에 있어서 종래에 사용되었던 over-representation 접근법은 중요성이 떨어지는 유전자 세트와의 상호작용이 무시될 수 있고, 차등적으로 발현된 유전자 세트 사이의 상대적인 순서에 대한 정보도 제공할 수 없는 문제점이 있다.The over-representation approach that has been conventionally used in gene set expression analysis is that interaction with a less important gene set can be neglected, and information about the relative order between the differentially expressed gene sets cannot be provided. There is this.

이에, 본 발명에서는 유전자 세트의 발현 분석에 있어서 유전자 세트와 이웃하는 모든 유전자 세트에 특이 점수를 기초하여 각 주석이 달린 유전자 집합의 점수를 할당하는 합산 점수 접근법이 사용될 수 있다.Thus, in the present invention, in the analysis of expression of a gene set, a summation score approach may be used to assign a score of each annotated gene set based on a specific score to all gene sets neighboring the gene set.

본 발명의 다른 측면에 따르면, (a) 약물에 대한 질병 유전자 발현 데이터 세트의 정보를 상용화된 데이터베이스로부터 수집하는 단계; 및 (b) 상기 질병 유전자 발현 데이터 세트를 네트워크 기반 점수에 따라 우선순위를 나열하여 질병과의 연관성을 평가하는 단계;를 포함하는 약물 재창출 예측시스템이 제공된다.According to another aspect of the present invention, (a) collecting information of a disease gene expression data set for a drug from a commercialized database; And (b) evaluating the association with the disease by listing the disease gene expression data sets in order of priority according to a network-based score.

상기 약물에 대한 정보는 Comparative Toxicogenomics Database(http://ctdbase.org/) 또는 PubChem 데이터베이스(https://ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/)를 포함하는 데이터베이스에서 획득할 수 있다.Information about the drug is obtained from a database including Comparative Toxicogenomics Database (http://ctdbase.org/) or PubChem database (https://ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/) can do.

상기 약물에 대한 질병 유전자 발현 데이터 세트는 Bioconductor(https://bioconductor.org/packages/release/data/experiment/html/KEGGdzPathwaysGEO.html) 를 포함하는 데이터베이스 군으로부터 선택되는 어느 하나 이상의 데이터베이스로부터 획득할 수 있다.The disease gene expression data set for the drug can be obtained from any one or more databases selected from the database group including Bioconductor (https://bioconductor.org/packages/release/data/experiment/html/KEGGdzPathwaysGEO.html). have.

본 발명자들은 NGSEA의 유용성을 높이기 위해 웹 기반 유전자 세트 농축 분석 서버(www.inetbio.org/ngsea)를 개발하였다.The present inventors have developed a web-based gene set enrichment analysis server (www.inetbio.org/ngsea) to increase the usefulness of NGSEA.

사용자는 KEGG PATHWAY, Gene Ontology Consortium, DisGeNET 및 Diseases과 같은 다양한 데이터베이스에 의해 생물학적 및 질병 과정을 나타내는 기능적 유전자 세트의 우선 순위를 지정할 수 있다.Users can prioritize a set of functional genes representing biological and disease processes by various databases such as KEGG PATHWAY, Gene Ontology Consortium, DisGeNET and Diseases.

사용자는 유전자 발현 표현형을 제출하여 GSEA와 NGSEA를 동시에 수행할 수 있다.The user can simultaneously perform GSEA and NGSEA by submitting a gene expression phenotype.

Expression Matrix(.gct 형식) 데이터와 사전 득점 된 유전자 목록(.rnk 형식) 모두를 분석을 위한 입력 데이터로 제출할 수 있다.Both Expression Matrix (.gct format) data and pre-scored gene lists (.rnk format) can be submitted as input for analysis.

마우스 유전자에 대한 증강 분석은 게놈 규모의 마우스 기능 유전자 네트워크로 수행할 수 있다.Augmentation analysis on mouse genes can be performed with a genome-scale mouse functional gene network.

사용자는 ES, NES 및 FDR에 따라 유전자 세트의 우선 순위를 지정할 수 있으며, 농축 플롯도 사용할 수 있다.Users can prioritize gene sets according to ES, NES and FDR, and enrichment plots are also available.

상기 약물 재창출 방법은 (c) 상기 약물을 질병 세포에 처리하여 치료 효과를 평가하는 단계;를 더 포함할 수 있다.The method for re-creating the drug may further include (c) evaluating the therapeutic effect by treating the drug with diseased cells.

이하 실시예를 통해, 본 발명을 더욱 상술하나 하기 실시예에 의해 본 발명이 제한되지 아니함은 자명하다. Through the following examples, it will be apparent that the present invention is not limited by the following examples, although the present invention is further described.

실험예 1 : 유전자 발현 프로파일, 주석된 유전자 세트 및 기능적 인간 유전자 네트워크Experimental Example 1: Gene expression profile, annotated gene set and functional human gene network

유전자 발현 표현형에 대한 유전자 세트 분석 성능 평가를 위해 KEGG pathway 용어가 이미 주석으로 표시된 발현 프로파일로 구성된 표준 표현 데이터 세트를 사용하였다.To evaluate the performance of gene set analysis for gene expression phenotypes, a standard expression data set consisting of expression profiles with KEGG pathway terms already annotated was used.

Bioconductor (https://bioconductor.org/packages/release/data/experiment/html/KEGGdzPathwaysGEO.html)에서 얻은 GEO (KEGGdzPathwaysGEO)의 KEGG 질병 데이터 세트를 유전자 세트 농축 분석 방법의 평가를 위한 표준 데이터 세트로 사용하였다.Using the GEO (KEGGdzPathwaysGEO) KEGG disease data set obtained from Bioconductor (https://bioconductor.org/packages/release/data/experiment/html/KEGGdzPathwaysGEO.html) as a standard data set for evaluating gene set enrichment analysis methods Did.

예를 들어, KEGGdzPathwaysGEO의 GSE21354 데이터 세트는 KEGG pathway 용어 '신경교종(glioma; hsa05214)'으로 주석을 달고 종양 조직 및 4 개의 정상 조직으로부터 14 개의 샘플을 포함하는 미세배열(microarray) 기반 유전자 발현 데이터를 포함하였다.For example, the GSE21354 data set from KEGGdzPathwaysGEO annotates the KEGG pathway term 'glioma (hsa05214)' and contains microarray-based gene expression data containing 14 samples from tumor tissue and 4 normal tissues. Included.

인간 KEGG pathway(https://www.genome.jp/kegg/pathway.html, 2016 년 6 월)와 Drug Signature Database(DSigDB)의 약물 표적 유전자 세트(http://tanlab.ucdenver.edu/DSigDB, version 1)로부터 경로 유전자 세트를 얻었다.Human KEGG pathway (https://www.genome.jp/kegg/pathway.html, June 2016) and drug target gene set from Drug Signature Database (DSigDB) (http://tanlab.ucdenver.edu/DSigDB, A version of the pathway gene was obtained from version 1).

GSEA와 동일한 기준의 기본 매개 변수 설정을 위해 15 개 미만의 유전자를 포함하는 유전자 세트는 분석에서 제외하였다.Gene sets containing less than 15 genes were excluded from the analysis to establish basic parameters of the same criteria as GSEA.

DSigDB의 경우 약물 이름은 PubChem 데이터베이스(http://ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/)에서 제공한 화합물 ID (compound ID, CID)로 매핑하였다.For DSigDB, drug names were mapped to compound ID (CID) provided in PubChem database (http://ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/).

마지막으로 분석을 위해 276 개의 KEGG pathway 유전자 세트와 165 개의 DSigDB 유전자 세트를 사용했다.Finally, 276 KEGG pathway gene sets and 165 DSigDB gene sets were used for analysis.

웹 서버 구축을 위해 Gene Ontology biological process(GOBP) 주석(http://www.geneontology.org, 2018.04.04.), DisGeNET(http://www.DisGeNET.org, 2018.06.08.)의 curated annotation, 질병 유전자 별 3 개 이상의 별점을 가진 질병(https://diseases.jensenlab.org)의 추가 유전자 세트를 사용하였다.Curated annotation of Gene Ontology biological process (GOBP) annotation (http://www.geneontology.org, 2018.04.04.), DisGeNET (http://www.DisGeNET.org, 2018.06.08.) For web server construction In addition, an additional gene set of diseases having three or more stars per disease gene (https://diseases.jensenlab.org) was used.

질병에 대한 약물 검색 능력을 벤치마킹하기 위해 비교 독성 유전체학 데이터베이스(CTD)의 '치료'범주에서의 연관에 대한 직접적인 증거를 근거로 하여 2,109 개의 질병과 1,481 개의 화학 물질 사이에 17,063 개의 링크를 작성하였다(http://ctdbase.org/ 2018.10.04.)To benchmark drug discovery for disease, 17,063 links were drawn between 2,109 diseases and 1,481 chemicals based on direct evidence of an association in the 'treatment' category of the Comparative Toxicology Genomics Database (CTD) ( http://ctdbase.org/ 2018.10.04.)

CID를 사용하여 약물의 정보를 동의어와 결합하였다.Information from the drug was combined with synonyms using CID.

네트워크 기반의 유전자 발현 분석은 게놈 규모의 기능 유전자 네트워크인 HumanNet-XC(www.inetbio.org/humannet)로 구현하였다.Network-based gene expression analysis was implemented with HumanNet-XC (www.inetbio.org/humannet), a genome-scale functional gene network.

즉, HumanNet-XC는 단백질-단백질의 상호작용뿐만 아니라 Bayesian statistics를 통한 다양한 유형의 omic data로부터 유추된 유전자들 사이의 기능적 연관성을 통합하였다.In other words, HumanNet-XC integrates protein-protein interactions as well as functional associations between genes derived from various types of omic data through Bayesian statistics.

HumanNet-XC는 17,790 개의 인간 유전자(코딩 게놈의 94.6 %) 사이에 424,501 개의 functional link를 포함한다.HumanNet-XC contains 424,501 functional links between 17,790 human genes (94.6% of the coding genome).

웹 서버에서 마우스 유전자 발현 표현형을 NGSEA에 이용하기 위해 17,714 개의 마우스 유전자(코딩 게놈의 88 %) 사이에 788,080 개의 링크를 포함하는 MouseNet(www.inetbio.org/mousenet)에 대한 기능 유전자 네트워크를 사용하였다.A functional gene network for MouseNet (www.inetbio.org/mousenet) containing 788,080 links between 17,714 mouse genes (88% of the coding genome) was used to use the mouse gene expression phenotype in the web server for NGSEA. .

실험예 2 : GSEA, AE 및 NGSEA 결과 비교Experimental Example 2: GSEA, AE and NGSEA results comparison

Broad Institute(http://software.broadinstitute.org/gsea/downloads.jsp)의 javaGSEA v3.0 소프트웨어를 다운받아 분석 및 웹 서버 구현에 사용하였다.The javaGSEA v3.0 software from Broad Institute (http://software.broadinstitute.org/gsea/downloads.jsp) was downloaded and used for analysis and web server implementation.

상기 javaGSEA는 GSEA 또는 GSEA-preranked 중 하나의 입력 데이터를 분석할 수 있다The javaGSEA can analyze input data of either GSEA or GSEA-preranked

유전자 발현 매트릭스는 대조군과 실험군을 모두를 포함하였다. 유전자의 순위를 변경하여 GSEA를 향상시키기 위해 기본 매개 변수인 'weighted GSEA-preranked' 함수를 사용하였다.The gene expression matrix included both control and experimental groups. The 'weighted GSEA-preranked' function, which is a basic parameter, was used to improve GSEA by changing the rank of the gene.

종래의 GSEA는 유전자 발현율, 신호 대 잡음비(SNR) 또는 발현율의 log2(Ratio)를 기준으로 가장 높게 발현된 유전자를 선정하였다.In the conventional GSEA, genes having the highest expression were selected based on the gene expression ratio, signal-to-noise ratio (SNR), or log 2 (Ratio) of expression ratio.

SNR은 실험군과 대조군 간의 평균 발현값 차이를 각 그룹의 표준 편차 합으로 나눈 것이다.SNR is the difference in mean expression value between the experimental group and the control group divided by the sum of the standard deviations of each group.

log2(Ratio)는 대조군 시료의 평균 발현값에 대한 실험군 시료의 평균 발현값의 비율을 및이 2인 로그를 취하여 계산하였다.log 2 (Ratio) was calculated by taking the ratio of the average expression value of the sample of the experimental group to the average expression value of the control sample and taking the logarithm of 2.

NGSEA는 종래의 유전자 기반 점수를 네트워크 이웃 유전자 기반 점수로 수정하였다.NGSEA modified the conventional gene-based score to a network neighbor gene-based score.

구체적으로, 상기 유전자 기반 점수의 절대값을 상기 네트워크 이웃 유전자 기반 점수의 절대값의 평균으로 통합하였으며, 각 유전자에 대한 네트워크 기반 점수(Network-based score, NS)를 하기 수식 1로 나타내었다.Specifically, the absolute value of the gene-based score was integrated as an average of the absolute values of the network-based neighbor gene-based score, and the network-based score (NS) for each gene was represented by Equation 1 below.

[수식 1][Equation 1]

Figure pat00003
Figure pat00003

상기 ni는 i 번째 유전자의 네트워크 이웃의 수이고, 상기 xj는 j 번째 유전자의 발현점수이다. 유전자 발현 데이터가 없는 경우 유전자 기반 점수를 0으로 하였다.The n i is the number of network neighbors of the i-th gene, and x j is the expression score of the j-th gene. In the absence of gene expression data, the gene-based score was set to 0.

SNR과 log2(Ratio)를 모두 실험해본 결과 log2(Ratio)가 일반적으로 더 나은 결과값을 제공하였으므로, 모든 결과는 log2(Ratio)를 유전자 기반 점수를 활용하였다.As a result of experimenting with both SNR and log 2 (Ratio), log 2 (Ratio) generally provided better results, so all results used log 2 (Ratio) based on gene-based scores.

absolute enrichment(AE) 분석을 위해 log2(Ratio)의 절대값을 기반으로 유전자를 나열하였다.Genes were listed based on the absolute value of log 2 (Ratio) for absolute enrichment (AE) analysis.

GSEA, AE, 및 NGSEA는 GSEA 사전 함수를 사용하여 각각 log2(Ratio) 값, log2(Ratio)의 절대값 및 NS를 수행하여 유전자 목록을 나열하였고, 상기 GSEA 사전 함수는 enrichment scores(ES), normalized enrichment scores(NES), P-values 및 FDR(false discovery rate) values for each gene set based on modified Kolmogorov Smirnov(K-S) test로 계산하였다.GSEA, AE, and NGSEA used the GSEA dictionary function to perform log 2 (Ratio) value, log 2 (Ratio) absolute value, and NS to list the gene list, respectively, and the GSEA dictionary function enrichment scores (ES) , normalized enrichment scores (NES), P-values and false discovery rate (FDR) values for each gene set based on modified Kolmogorov Smirnov (KS) test.

유전자 세트의 회복 성능을 평가하기 위해, 양성 및 음성 모두 높은 점수를 갖는 유전자 세트를 GSEA에서 동등하게 가중시키는 absolute NES로 유전자 세트의 우선 순위를 나열하였다.To evaluate the recovery performance of the gene set, the priority of the gene set was listed as absolute NES, which equally weights the gene set with high scores for both positive and negative in GSEA.

도 2A를 참조하면, NGSEA의 순위 분포는 GSEA 및 AE와 비교하여 유의하게 높았다(P=2.35e-3 and P=4.0e-3, respectively, by Wilcoxon signed rank test).2A, the ranking distribution of NGSEA was significantly higher compared to GSEA and AE (P = 2.35e -3 and P = 4.0e -3 , respectively, by Wilcoxon signed rank test).

도 2B를 참조하면, 일치하는 KEGG 경로 조건의 순위는 질병 발현 데이터 세트를 테스트한 24 개 중 18 개(75 %)에서 GSEA와 비교하여 NGSEA에 의해 향상되었다.Referring to Figure 2B, the ranking of matching KEGG pathway conditions was improved by NGSEA compared to GSEA in 18 of the 24 (75%) tested disease expression data sets.

예를 들어, KEGG 용어 '신경교종(Glioma)'은 GSEA에서 131 번째로 검색되었지만 신경교종 샘플에서 파생된 유전자 발현 데이터 세트(GSE21354)는 NGSEA에서 18 번째로 검색되었다.For example, the KEGG term 'Glioma' was searched 131 times in GSEA, but the gene expression data set derived from glioma samples (GSE21354) was searched 18 times in NGSEA.

한편, AE의 성능은 GSEA로부터 유의하게 개선되지 않았다(P=0.11 by Wilcoxon signed rank test).On the other hand, the performance of AE was not significantly improved from GSEA (P = 0.11 by Wilcoxon signed rank test).

상기 결과는 NGSEA에서 관찰된 개선의 주요 요인이 유전자 발현 데이터의 네트워크 기반 분석에 의한 것임을 시사한다.The results suggest that the main factor of improvement observed in NGSEA is by network-based analysis of gene expression data.

동일한 질병에 대하여 서로 다른 발현 프로파일 간 KEGG 경로의 할당 점수를 비교하여 세 가지 농축 분석 방법의 견고성(robustness)을 확인하였다.The robustness of the three enrichment assays was confirmed by comparing the assigned scores of the KEGG pathway between different expression profiles for the same disease.

도 2C를 참조하면, 세 가지 농축 분석 결과 모두 동일한 질병 사이의 경로 점수가 다른 질병 사이의 경로 점수보다 유의미한 상관 관계를 보였다.Referring to FIG. 2C, all three concentration analysis results showed that the path score between the same diseases was significantly correlated with the path score between different diseases.

특히, NGSEA는 GSEA와 비교하여 동일 질병군 및 다른 질병군 사이에서 상관 차이의 유의성을 개선시켰다(각각 P=2.72e-6 및 P=3.44e-5, Wilcoxon rank sum test).In particular, NGSEA improved the significance of correlation differences between the same and different disease groups compared to GSEA (P = 2.72e -6 and P = 3.44e -5 , Wilcoxon rank sum test, respectively).

상기 결과는 NGSEA의 농축 분석이 동일한 질병 과정에 대한 발현 프로파일 간의 다양성에 영향을 덜 미침을 시사한다.The results suggest that NGSEA enrichment analysis has less effect on variability between expression profiles for the same disease process.

예를 들어, 도 2D를 참조하면, 알츠하이머 병에 대한 유전자 발현 데이터(GSE5281_VCX)의 경우, 네트워크 기반 점수 측정 방법이 KEGG 용어 '알츠하이머 병'을 17 번째에서 5 번째로 올려 놓았고, 대다수의 경로 유전자는 NGSEA(붉은 색)에서 높게 평가되었으나, KEGG 용어 'Staphylococcus aureus 감염'의 경우 6 번째에서 267 번째로 내려갔으며, 대다수의 경로 유전자는 GSEA에서 높게 평가되었다.For example, referring to FIG. 2D, in the case of gene expression data for Alzheimer's disease (GSE5281_VCX), the network-based score measurement method put the KEGG term 'Alzheimer's disease' from 17th to 5th, and the majority of pathway genes Although highly rated in NGSEA (red), the KEGG term 'Staphylococcus aureus infection' went down from 6th to 267th, and the majority of pathway genes were highly rated in GSEA.

도 2E를 참조하면, 급성 골수성 백혈병의 경우, 관련 및 비관련 경로 사이에서 순위가 유사하게 변화하는 경향을 확인하였다.Referring to FIG. 2E, in the case of acute myeloid leukemia, it was confirmed that the ranking similarly changed between related and unrelated pathways.

상기 결과는 네트워크 기반 스코어링이 농축 분석을 위해 정렬된 유전자 목록의 기본 생물학적 과정에서 진정한 관련 유전자 집합에 할당된 점수를 더 증가시켜 진정한 기능 유전자의 순위를 높여주었음을 시사한다.The above results suggest that network-based scoring increased the ranking of true functional genes by further increasing the scores assigned to the true related gene set in the basic biological process of the sorted gene list for enrichment analysis.

실험예 3 : Connectivity Map(CMap)을 이용한 약물 재창출(Drug repositioning)Experimental Example 3: Drug repositioning using Connectivity Map (CMap)

CMap 웹 서버(https://portals.broadinstitute.org/cmap)에서 검색한 FDA 승인 의약품에 대한 24 개의 KEGG 질병 유전자 발현 데이터 세트를 우선순위를 나열하였다.The 24 KEGG disease gene expression data sets for FDA approved drugs retrieved from the CMap web server (https://portals.broadinstitute.org/cmap) were listed in order of priority.

CMap은 입력 데이터로 상향 및 하향 태그(Affymetrix HG-U133a probe ID) 목록이 필요하므로 24 개의 각 질병 발현 데이터 세트에서 50 개의 상향 및 하향 조절된 프로브 ID를 선택하였다.Since CMap requires a list of up and down tags (Affymetrix HG-U133a probe ID) as input data, 50 up and down regulated probe IDs were selected from each of the 24 disease expression data sets.

입력 유전자가 Affymetrix HG-U133a 프로브 ID를 기반으로 하지 않으면 CMap 분석을 실행하기 위해 AffyMetrix HG-U133a 프로브 ID로 변환하였다.If the input gene was not based on the Affymetrix HG-U133a probe ID, it was converted to the AffyMetrix HG-U133a probe ID to perform CMap analysis.

도 3A를 참조하면, 각 FDA 승인 약물에 대한 표적 유전자를 네트워크 기반 점수에 따라 유전자 목록으로 나열하여 질병과의 연관성을 시험하기 위한 기능적 유전자 세트로 사용하였다.Referring to FIG. 3A, target genes for each FDA-approved drug were listed as a gene list according to a network-based score, and used as a functional gene set for testing association with disease.

DSigDB의 능동적인 생물 검정에 근거하여 약물-표적 링크로부터 약물에 대한 표적 유전자 세트를 수집하였다.Based on the active bioassay of DSigDB, a set of target genes for drugs was collected from drug-target links.

KEGGdzPathwaysGEO의 12 가지 질병에 대한 24 개의 유전자 발현 데이터 세트와 15 개 이상의 표적을 가진 DSigDB의 165 개의 FDA 승인 의약품에 대한 표적 유전자 세트로 NGSEA에 의한 약물의 우선순위를 결정하였다.The drug was prioritized by NGSEA with a set of 24 gene expression data for 12 diseases of KEGGdzPathwaysGEO and a target gene set for 165 FDA-approved drugs from DSigDB with more than 15 targets.

CMap 및 NGSEA의 24 가지 질병 관련 유전자 발현 데이터 세트 각각에 대해 알려진 약물을 검색할 수 있는 능력을 비교하였다.The ability to search for known drugs for each of the 24 disease-related gene expression data sets of CMap and NGSEA was compared.

벤치마킹을 위해 Comparative Toxicogenomics Database(CTD)의 '치료' 범주에서 2,109 가지 질병과 1,481 가지 화학 물질 간에 17,063 개의 연관성을 확인하였다.For benchmarking, 17,063 associations between 2,109 diseases and 1,481 chemicals were identified in the 'Treatment' category of the Comparative Toxicogenomics Database (CTD).

알려진 약물 회수의 성능은 area under the receiver operating characteristic curve(AUROC)으로 벤치마킹 하였다.The performance of known drug recovery was benchmarked with an area under the receiver operating characteristic curve (AUROC).

시험 약물 차이에 의한 편향된 평가를 방지하기 위해 CMap 및 NGSEA 모두에서 포함된 약물로 AUROC 분석을 수행하였다.AUROC analysis was performed with drugs included in both CMap and NGSEA to prevent biased evaluation by test drug differences.

도 3B를 참조하면, NGSEA의 약물 치료에 대한 AUROC는 CMap과 비교하여 유의하게 개선되었다(P=9.62e-4, Wilcoxon signed rank test). Referring to Figure 3B, NGSEA AUROC for drug treatment was significantly improved compared to the CMap (P = 9.62e -4 , Wilcoxon signed rank test).

구체적으로, NGSEA에서 일치된 질병 유전자 발현 데이터 세트에 대한 알려진 약물의 회복은 CMap과 비교하여 16 건에서 24 건으로 향상되었다.Specifically, the recovery of known drugs for a consistent disease gene expression data set in NGSEA improved from 16 to 24 compared to CMap.

NGSEA는 특히 항암제 검색에 효과적이었다.NGSEA was particularly effective in anticancer drug screening.

NGSEA에 의한 16 건의 암 관련 발현 데이터 중 14건(87.5 %)에서 향상된 성능이 관찰되었는데, 상기 결과는 의약 표적 정보가 있는 NGSEA는 항암제 재조정에 있어서 효과적인 접근법이 될 수 있음을 시사한다.Improved performance was observed in 14 of the 16 cancer-related expression data by NGSEA (87.5%), suggesting that NGSEA with medicinal targeting information may be an effective approach in reconditioning anticancer drugs.

실험예 4 : 약물 치료에 의한 항암 효과 분석Experimental Example 4: Analysis of anticancer effects by drug treatment

MTS(3-(4,5-dimethylthiazol-2-yl)-5-(3-carboxymethoxyphenyl)-2-(4-sulfophenyl)-2H-tetrazolium) 분석을 통해 약물 치료 후 세포 생존력을 측정하였다.Cell viability was measured after drug treatment through MTS (3- (4,5-dimethylthiazol-2-yl) -5- (3-carboxymethoxyphenyl) -2- (4-sulfophenyl) -2H-tetrazolium) analysis.

실험예 3에서 선택한 약물 후보를 24, 48 및 72 시간 동안 50 내지 250 μM 농도로 대장암 세포주인 HCT116 또는 HT-29에 처리하였고, MTS 시약을 추가하였다. ELISA 마이크로 플레이트 판독기(Molecular Devices, USA)상에서 490 nm 흡광도를 측정하여 세포 생존율을 계산하였다. 모든 실험을 6 번 반복하였다.The drug candidates selected in Experimental Example 3 were treated with colon cancer cell lines HCT116 or HT-29 at concentrations of 50 to 250 μM for 24, 48 and 72 hours, and MTS reagent was added. Cell viability was calculated by measuring absorbance at 490 nm on an ELISA microplate reader (Molecular Devices, USA). All experiments were repeated 6 times.

도 4A를 참조하면, 알려진 항암제의 회수 성능은 NGSEA에 의한 대장암(GSE9348)에서 가장 크게 개선되었다. AUROC 값은 CMAP 및 NGSEA에서 각각 0.488 및 0.775로 측정되었다.Referring to Figure 4A, the recovery performance of known anticancer agents is the greatest improvement in colorectal cancer (GSE9348) by NGSEA. AUROC values were determined to be 0.488 and 0.775 in CMAP and NGSEA, respectively.

도 4B를 참조하면, NGSEA에 의한 대장암 치료에 대한 30 가지 예측 중 6 가지 화학 물질이 현재 대장암에 사용되는 약물이었고, 이 중 3 가지 화학 물질은 대장암 치료(https://clinicaltrials.gov/)의 임상 시험을 거쳤다.Referring to FIG. 4B, 6 chemicals out of 30 predictions for the treatment of colorectal cancer by NGSEA were drugs currently used for colorectal cancer, 3 of which were treated for colorectal cancer (https://clinicaltrials.gov /) Has been clinically tested.

후속 실험 검증을 위해 대장암에 대한 항암 효과의 증거가 없는 것으로 알려진 나머지 후보 중dobutamin(5 위) 및 budesonide(17 위)의 대장암에 대한 항암 효과를 확인하였다. 상기 dobutamine과 budesonide는 Sigma에서 구입하였다.For the subsequent experimental verification, the anticancer effect of dobutamin (5th place) and budesonide (17th place) of colon cancer among the remaining candidates known to have no evidence of anticancer effect on colon cancer was confirmed. The dobutamine and budesonide were purchased from Sigma.

도 4C 및 도 4D를 참조하면, 대장암 세포주 HCT116 및 HT-29를 사용한 세포 생존능 분석에서 budesonide를 처리한 경우 암세포 성장을 유의하게 억제하였다.4C and 4D, in the cell viability analysis using the colon cancer cell lines HCT116 and HT-29, treatment with budesonide significantly inhibited cancer cell growth.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustration only, and a person having ordinary knowledge in the technical field to which the present invention pertains can understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.

본 발명의 범위는 후술하는 특허청구범위에 의해 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the following claims, and all modifications or variations derived from the meaning and scope of the claims and their equivalent concepts should be interpreted to be included in the scope of the present invention.

Claims (10)

(a) 유전자 발현 데이터를 포함하는 유전자 세트 정보를 상용화된 데이터베이스로부터 수집하는 단계;
(b) 상기 수집된 유전자 세트와 상호작용하는 유전자 세트를 선별하는 단계; 및
(c) 네트워크 기반 점수(Natwork-based score; NS) 측정법에 기반하여 상기 상호작용하는 유전자 세트 사이의 기능적 연관성을 통합하는 단계;를 포함하는 네트워크 기반의 유전자 세트 증강 분석(Network-based gene set enrichment analysis; NGSEA)을 수행하는 방법.
(a) collecting gene set information including gene expression data from a commercialized database;
(b) selecting a gene set that interacts with the collected gene set; And
(c) integrating functional associations between the interacting gene sets based on a network-based score (NS) metric; network-based gene set enrichment analysis analysis; NGSEA).
제1항에 있어서,
상기 네트워크 기반 점수는 하기 수식 1에 의해 산출되는, 방법.
[수식 1]
Figure pat00004

상기 ni는 i 번째 유전자의 네트워크 이웃의 수이고, 상기 xi 및 xj는 각각 I 및 j 번째 유전자의 발현점수이다.
According to claim 1,
The network-based score is calculated by Equation 1 below.
[Equation 1]
Figure pat00004

The n i is the number of network neighbors of the i-th gene, and x i and x j are the expression scores of the I and j-th genes, respectively.
제1항에 있어서,
상기 유전자 세트에 대한 정보는 KEGG PATHWAY Database(https://www.genome.jp/kegg/pathway.html), Drug SIGnatures DataBase(http://tanlab.ucdenver.edu/DSigDB/DSigDBv1.0/), Gene Ontology Consortium(http://www.geneontology.org), DisGeNET(http://www.DisGeNET.org) 및 Diseases(https://diseases.jensenlab.org)를 포함하는 데이터베이스 군으로부터 선택되는 어느 하나 이상의 데이터베이스로부터 획득하는, 방법.
According to claim 1,
Information about the gene set is KEGG PATHWAY Database (https://www.genome.jp/kegg/pathway.html), Drug SIGnatures DataBase (http://tanlab.ucdenver.edu/DSigDB/DSigDBv1.0/), Any one selected from the database group including Gene Ontology Consortium (http://www.geneontology.org), DisGeNET (http://www.DisGeNET.org) and Diseases (https://diseases.jensenlab.org) The method obtained from the above database.
제1항에 있어서,
상기 유전자 세트 사이의 기능적 연관성은 게놈 규모의 기능 유전자 네트워크로 구현하는, 방법.
According to claim 1,
A method in which functional linkages between the gene sets are implemented with a genomic-scale functional gene network.
제4항에 있어서,
상기 게놈 규모의 기능 유전자 네트워크는 HumanNet(www.inetbio.org/humannet) 또는 MouseNet(www.inetbio.org/mousenet)의 데이터 베이스에서 획득하는, 방법.
According to claim 4,
The genome-scale functional gene network is obtained from a database of HumanNet (www.inetbio.org/humannet) or MouseNet (www.inetbio.org/mousenet).
제1항에 있어서,
상기 네트워크 기반의 유전자 세트 증강 분석은 합산 점수 접근법(aggregate score approach)을 통해 수행하는, 방법.
According to claim 1,
The network-based gene set enhancement analysis is performed through an aggregate score approach.
(a) 약물에 대한 질병 유전자 발현 데이터 세트의 정보를 상용화된 데이터베이스로부터 수집하는 단계; 및
(b) 상기 질병 유전자 발현 데이터 세트를 네트워크 기반 점수에 따라 우선순위를 나열하여 질병과의 연관성을 평가하는 단계;를 포함하는 약물 재창출 방법.
(a) collecting information of a disease gene expression data set for a drug from a commercialized database; And
(b) evaluating the association with the disease by listing the disease gene expression data sets in order of priority based on a network-based score.
제7항에 있어서,
상기 약물에 대한 정보는 Comparative Toxicogenomics Database(http://ctdbase.org/) 또는 PubChem 데이터베이스(https://ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/)를 포함하는 데이터베이스에서 획득하는, 약물 재창출 방법.
The method of claim 7,
Information about the drug is obtained from a database including Comparative Toxicogenomics Database (http://ctdbase.org/) or PubChem database (https://ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/) How to re-create the drug.
제7항에 있어서,
상기 약물에 대한 질병 유전자 발현 데이터 세트는 Bioconductor(https://bioconductor.org/packages/release/data/experiment/html/KEGGdzPathwaysGEO.html), 를 포함하는 데이터베이스 군으로부터 선택되는 어느 하나 이상의 데이터베이스로부터 획득하는, 약물 재창출 방법.
The method of claim 7,
The disease gene expression data set for the drug is obtained from any one or more databases selected from the database group comprising Bioconductor (https://bioconductor.org/packages/release/data/experiment/html/KEGGdzPathwaysGEO.html), , Drug re-creation method.
제7항에 있어서,
(c) 상기 약물을 질병 세포에 처리하여 치료 효과를 평가하는 단계;를 더 포함하는, 약물 재창출 예측 방법.
The method of claim 7,
(c) evaluating the therapeutic effect by treating the drug with diseased cells; further comprising, a method for predicting drug re-creation.
KR1020180122701A 2018-10-15 2018-10-15 A drug repositioning system using network-based gene set enrichment analysis method KR102230156B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180122701A KR102230156B1 (en) 2018-10-15 2018-10-15 A drug repositioning system using network-based gene set enrichment analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180122701A KR102230156B1 (en) 2018-10-15 2018-10-15 A drug repositioning system using network-based gene set enrichment analysis method

Publications (2)

Publication Number Publication Date
KR20200042295A true KR20200042295A (en) 2020-04-23
KR102230156B1 KR102230156B1 (en) 2021-03-19

Family

ID=70472548

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180122701A KR102230156B1 (en) 2018-10-15 2018-10-15 A drug repositioning system using network-based gene set enrichment analysis method

Country Status (1)

Country Link
KR (1) KR102230156B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687370A (en) * 2020-12-28 2021-04-20 博奥生物集团有限公司 Electronic prescription generation method and device and electronic equipment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170047037A (en) * 2015-10-22 2017-05-04 한국과학기술원 System and method
WO2018067595A1 (en) * 2016-10-03 2018-04-12 Illuminia, Inc. Phenotype/disease specific gene ranking using curated, gene library and network based data structures

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170047037A (en) * 2015-10-22 2017-05-04 한국과학기술원 System and method
WO2018067595A1 (en) * 2016-10-03 2018-04-12 Illuminia, Inc. Phenotype/disease specific gene ranking using curated, gene library and network based data structures

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
E. Glaab 외, "EnrichNet: network-based gene set enrichment analysis", Bioinformatics, 28권, ECCB 2012, pp. 1451-1457, 2012.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687370A (en) * 2020-12-28 2021-04-20 博奥生物集团有限公司 Electronic prescription generation method and device and electronic equipment
CN112687370B (en) * 2020-12-28 2023-12-22 北京博奥晶方生物科技有限公司 Electronic prescription generation method and device and electronic equipment

Also Published As

Publication number Publication date
KR102230156B1 (en) 2021-03-19

Similar Documents

Publication Publication Date Title
Crow et al. Characterizing the replicability of cell types defined by single cell RNA-sequencing data using MetaNeighbor
Lanza et al. In-depth resistome analysis by targeted metagenomics
Williams et al. Genes contributing to pain sensitivity in the normal population: an exome sequencing study
Li et al. A knowledge-based weighting framework to boost the power of genome-wide association studies
Kunkle et al. Reverse engineering of modified genes by Bayesian network analysis defines molecular determinants critical to the development of glioblastoma
CN110577998A (en) Construction of molecular model for predicting postoperative early recurrence risk of liver cancer and application evaluation thereof
CA3021833A1 (en) Pathway recognition algorithm using data integration on genomic models (paradigm)
JP2005516310A (en) Computer system and method for identifying genes and revealing pathways associated with traits
Costello et al. Gene networks in Drosophila melanogaster: integrating experimental data to predict gene function
Xiong et al. Epigenomic dissection of Alzheimer’s disease pinpoints causal variants and reveals epigenome erosion
WO2009076551A2 (en) Systems and methods for predicting response of biological samples
Kariotis et al. Biological heterogeneity in idiopathic pulmonary arterial hypertension identified through unsupervised transcriptomic profiling of whole blood
Ribeiro et al. The molecular basis, genetic control and pleiotropic effects of local gene co-expression
Vega et al. Multiplatform genome-wide identification and modeling of functional human estrogen receptor binding sites
Liang et al. A multi-omics atlas of the human retina at single-cell resolution
US20160239620A1 (en) System and method of predicting personal therapeutic response
Stiglic et al. Gene set enrichment meta-learning analysis: next-generation sequencing versus microarrays
Belcastro et al. The sbv IMPROVER systems toxicology computational challenge: identification of human and species-independent blood response markers as predictors of smoking exposure and cessation status
KR102230156B1 (en) A drug repositioning system using network-based gene set enrichment analysis method
Aracena et al. Epigenetic variation impacts individual differences in the transcriptional response to influenza infection
Huang et al. A new gene-scoring method for uncovering novel glaucoma-related genes using non-negative matrix factorization based on RNA-seq data
Zhu et al. Integrated analysis of the molecular mechanisms in idiopathic pulmonary fibrosis
IL292945A (en) Identification of host rna biomarkers of infection
Sobhan et al. Explainable machine learning to identify patient-specific biomarkers for lung cancer
Kuang et al. A global A nophelesgambiae gene co-expression network constructed from hundreds of experimental conditions with missing values

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant