KR101963331B1 - Method and system for predicting drug repositioning candidate based on similarity between drug and metabolite - Google Patents

Method and system for predicting drug repositioning candidate based on similarity between drug and metabolite Download PDF

Info

Publication number
KR101963331B1
KR101963331B1 KR1020170079165A KR20170079165A KR101963331B1 KR 101963331 B1 KR101963331 B1 KR 101963331B1 KR 1020170079165 A KR1020170079165 A KR 1020170079165A KR 20170079165 A KR20170079165 A KR 20170079165A KR 101963331 B1 KR101963331 B1 KR 101963331B1
Authority
KR
South Korea
Prior art keywords
drug
disease
information
similarity
protein
Prior art date
Application number
KR1020170079165A
Other languages
Korean (ko)
Other versions
KR20190000166A (en
Inventor
이관수
이윤혁
최호재
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020170079165A priority Critical patent/KR101963331B1/en
Publication of KR20190000166A publication Critical patent/KR20190000166A/en
Application granted granted Critical
Publication of KR101963331B1 publication Critical patent/KR101963331B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

약물 재창출 후보 예측 방법 및 그 시스템이 제공된다. 이 방법은 적어도 하나의 프로세서에 의해 동작하는 시스템이 약물 재창출 후보를 예측하는 방법으로서, 질병 발생과 연관된 질병 연관 단백질 정보, 단백질과 화합물의 상호작용 정보 및 인체 대사물질 정보를 수집하는 단계, 수집한 정보에 기초하여 질병 연관 단백질과 인체 대사물질 간의 상호작용 관계 정보를 추출하는 단계, 화학적 구조의 유사성에 따라 이미 알려진 약물 별로 각각의 약물과 화학적 구조가 유사한 인체 대사물질을 매칭하는 단계, 상기 약물 별로 매칭된 인체 대사물질을 상기 상호작용 관계 정보에 기초하여 상기 질병 연관 단백질로 치환하는 단계, 그리고 상기 화학적 구조의 유사성이 임계 조건을 충족하는 약물 및 질병 연관 단백질을 추출하여, 상기 추출한 약물을 상기 추출한 단백질의 연관 질병의 약물 재창출 후보로 예측하는 단계를 포함한다.A method for predicting drug re-creation candidates and a system thereof are provided. The method includes the steps of: collecting disease-related protein information associated with disease occurrence, information of interaction of a protein with a compound, and metabolite information of a human, Related protein and a human metabolite based on the information, matching the human metabolite having a chemical structure similar to that of each drug for each known drug according to the similarity of the chemical structure, Substituting the disease-associated protein based on the interaction-related information, and extracting the drug and the disease-associated protein whose similarity of the chemical structure satisfies the critical condition, A candidate to regenerate drug-related diseases of extracted proteins And a step of.

Description

인체 대사 물질과의 유사도 기반 약물 재창출 후보 예측 방법 및 그 시스템{METHOD AND SYSTEM FOR PREDICTING DRUG REPOSITIONING CANDIDATE BASED ON SIMILARITY BETWEEN DRUG AND METABOLITE}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and a system for regenerating a drug candidate based on similarity with a metabolite of a human body,

본 발명은 인체 대사 물질과의 유사도 기반 약물 재창출 후보 예측 방법 및 그 시스템에 관한 것이다.The present invention relates to a method for predicting drug regeneration candidates based on similarity with a human metabolite and a system thereof.

최근 약물 개발 프로세스에서의 높은 실패율로 인해 약물 재창출이 새로운 패러다임으로 떠오르고 있다. 약물 재창출은 이미 시판 중이거나 임상 단계에서 안정성 이외의 이유로 상업화에 실패한 약물을 대상으로 새로운 효능을 입증하여 약물로 개발하는 방법이다.Recently, drug re-creation has emerged as a new paradigm due to the high failure rate in the drug development process. Drug regeneration is a method of developing drugs as drugs that demonstrate new efficacy against drugs that are already on the market or fail to commercialize for reasons other than stability at the clinical stage.

약물 재창출 후보를 예측하기 위해 기존 약물과의 구조 유사성, 표적 결합 구조의 예측 등의 방법론들이 개발되고 있으며 약물 개발 프로세스에 기여를 하고 있다. In order to predict candidates for regeneration of drugs, methodologies such as structural similarity with existing drugs and prediction of target binding structure have been developed and contribute to the drug development process.

그러나 이미 개발된 방법론들에서 인체 대사 물질 공간(a space of human innate metabolites)은 비교적 고려되지 않았다. However, in the methodologies already developed, a space of human innate metabolites has not been considered relatively.

약물의 구조가 인체 대사 물질과 유사한 경우, 같은 표적에 유사한 방식으로 상호 작용할 수 있으므로, 인체 대사 물질 공간은 약물 개발의 훌륭한 자원이 될 수 있다. 일례로, 모르핀(Morphine)은 인체 오피오이드(Opioid) 시스템의 엔도르핀(Endorphin)을 모방하며, 약리학적 및 생리학적 효과가 유사하다는 것이 증명되었다. 이처럼, 약물 개발에 있어서 인체 대사 물질 유사성은 중요한 특성임에도 불구하고 이 특성을 고려하여 약물 후보 물질을 예측할 수 있는 방법론이 없어 인체 대사 물질 유사 약물 발굴이 제한적인 상황이다.If the structure of the drug is similar to the human metabolite, the human metabolite space can be a great resource for drug development, because it can interact in a similar way to the same target. For example, morphine mimics the endorphin of the human opioid system and has been shown to have similar pharmacological and physiological effects. In this way, although the similarity of human metabolism in drug development is an important characteristic, there is no methodology for predicting drug candidates in consideration of this characteristic, and the search for metabolites of human metabolites is limited.

현재, 인체 대사 물질의 특성을 약물 개발에 이용하려는 노력의 하나로 대사 물질 유사도(metabolite-likeness)라는 개념이 제안되어 있다. Currently, the concept of metabolite-likeness has been proposed as one of the efforts to utilize the properties of human metabolites in drug development.

대사 물질 유사도는 인체 대사 물질과 유사한 구조를 가지는 약물의 경우, 약물 유사 대사 물질이 사용하는 인체 수송 시스템을 함께 이용할 가능성이 있다는 점에서 새로운 약물 가능성 여과기(druggability filter)로 제안되었다. Metabolite similarity has been proposed as a new drugability filter in the case of drugs with a structure similar to that of human metabolites, in that there is a possibility of using a human body transport system used by drug-like metabolites together.

그러나 대부분의 인체 대사 물질은 대사 효소를 포함하는 생체 내 표적(innate target) 들과 상호 작용하고 있으며, 새로운 질병 연관 표적-약물 관계가 약물의 생체 내 표적 연관 대사 물질 유사도로부터 직접 추론될 수 있음에도 불구하고, 이 특성을 이용한 신규 약물 예측 방법론은 제안되지 않은 실정이다.However, most human metabolites interact with innate targets, including metabolic enzymes, and although new disease-associated target-drug relationships can be inferred directly from the drug's in vivo target-related metabolite similarity And a novel drug prediction methodology using this property has not been proposed.

이처럼, 기존에도 여러 약물 재창출 방법론이 있었지만, 이미 개발된 방법론들에서는 질병 연관 표적 단백질과 상호 작용하는 기존의 약물 정보가 없는 경우에는 약물 재창출이 어렵다는 한계를 가지고 있다.In this way, there have been many methods of regenerating drugs, but the methodologies already developed have limitations in that it is difficult to regenerate drugs without existing drug information interacting with disease-related target proteins.

본 발명이 해결하고자 하는 과제는 질병 연관 인체 대사 물질과 이미 알려진 약물 간의 화학적 구조 유사성을 기반으로, 질병 연관 생체 표적 단백질과 약물의 상호작용 관계를 추론함으로써, 기존 약물 중에서 약물 재창출이 될 수 있는 약물 후보를 예측하는 방법 및 그 시스템을 제공하는 것이다.The object of the present invention is to deduce the interaction relationship between a disease-related bio-target protein and a drug based on the chemical structure similarity between a disease-related human metabolite and a known drug, A method for predicting a drug candidate, and a system thereof.

본 발명의 하나의 특징에 따르면, 약물 재창출 후보 예측 방법은 적어도 하나의 프로세서에 의해 동작하는 시스템이 약물 재창출 후보를 예측하는 방법으로서, 질병 발생과 연관된 질병 연관 단백질 정보, 단백질과 화합물의 상호작용 정보 및 인체 대사물질 정보를 수집하는 단계, 수집한 정보에 기초하여 질병 연관 단백질과 인체 대사물질 간의 상호작용 관계 정보를 추출하는 단계, 화학적 구조의 유사성에 따라 이미 알려진 약물 별로 각각의 약물과 화학적 구조가 유사한 인체 대사물질을 매칭하는 단계, 상기 약물 별로 매칭된 인체 대사물질을 상기 상호작용 관계 정보에 기초하여 상기 질병 연관 단백질로 치환하는 단계, 그리고 상기 화학적 구조의 유사성이 임계 조건을 충족하는 약물 및 질병 연관 단백질을 추출하여, 상기 추출한 약물을 상기 추출한 단백질의 연관 질병의 약물 재창출 후보로 예측하는 단계를 포함한다.According to one aspect of the present invention, a method for predicting drug regeneration candidates is a method for predicting drug regeneration candidates by a system that is operated by at least one processor, wherein disease-related protein information associated with disease occurrence, A step of collecting information on action and metabolism of the human body, a step of extracting information on the interaction relation between the disease-related protein and the human metabolite based on the collected information, The method comprising the steps of: matching a human metabolite having a similar structure to the disease-related protein on the basis of the interaction-related information; And extracting the disease-associated protein, And predicting the extracted protein as a drug regeneration candidate of the related disease.

상기 매칭하는 단계는, 상기 약물의 구조 및 상기 인체 대사물질의 구조 각각의 화학적 지문 간의 유사도 점수를 토대로 상기 약물과 상기 인체 대사물질의 유사도 행렬을 생성하고, 상기 치환하는 단계는, 상기 유사도 행렬에서 상기 인체 대사물질을 상기 질병 연관 단백질로 치환하고 내림차순화하여 점수화 행렬을 생성할 수 있다.Wherein the matching step generates a similarity matrix of the drug and the human metabolite based on a similarity score between the chemical fingerprint of each of the structures of the drug and the structure of the human metabolite, The scoring matrix may be generated by replacing the human metabolite with the disease-associated protein and descending.

상기 유사도 행렬은, 히트맵 함수를 이용하여 계층적으로 클러스터링되고, 각각의 유사도 점수가 구간 별로 서로 다른 색상으로 표시될 수 있다. The similarity degree matrices may be hierarchically clustered using a heat map function, and each similarity score may be displayed in different colors for each section.

상기 치환하는 단계와 상기 예측하는 단계 사이에, 공개 데이터베이스로부터 수집한 약물 표적 단백질 정보와, 상기 질병 연관 단백질과 인체 대사물질 간의 상호작용 관계 정보를 이용하여, 약물 표적 단백질, 인체 대사물질 및 약물간의 관계 정보를 포함하는 기준 데이터 세트를 선정하는 단계, 상기 기준 데이터 세트에 포함된 인체 대사물질 및 약물의 화학적 구조 유사도 점수에 기초하여 수신자 조작 특성 곡선(Receiver Operating Characteristic curve)을 생성하는 단계, 그리고 상기 수신자 조작 특정 곡선을 이용하여 계산된 요덴 지표(Youden's Index)가 가장 높은 유사도 점수를 추출하여, 기준 유사도 점수로 선정하는 단계를 더 포함하고, 상기 예측하는 단계는, 상기 점수화 행렬에 상기 기준 유사도 점수를 적용하여 상기 기준 유사도 점수보다 높은 유사도 점수를 갖는 약물을 재창출 후보로 예측할 수 있다.Between the replacing step and the predicting step, the drug target protein information collected from the public database, and the interaction relation information between the disease-associated protein and the human metabolite, Generating a receiver operating characteristic curve based on the chemical structure similarity scores of the human metabolite and the drug included in the reference data set, Further comprising the step of extracting a similarity score having the highest Yoden index (Youden's Index) calculated using a receiver operation specific curve, and selecting the similarity score as the reference similarity score, wherein said predicting step includes: And a similarity degree higher than the reference similarity score A drug having a re-creation can be estimated as a candidate.

상기 기준 데이터 세트를 선정하는 단계 이후, 상기 기준 데이터 세트에 포함된 인체 대사물질 및 약물의 화학적 구조 유사도 점수에 기초하여 생성된 수신자 조작 특성 곡선과, 이미 알려진 분자와 표적 상호작용을 예측하는 적어도 하나의 예측 알고리즘을 이용하여 산출된 예측 값에 기초하여 생성된 수신자 조작 특성 곡선을 상호 비교하여, 상기 기준 데이터 세트의 예측 정확도를 검증하는 단계를 더 포함할 수 있다.Wherein the step of selecting the reference data set further comprises the steps of: after the step of selecting the reference data set, a recipient manipulation characteristic curve generated based on a score of the chemical structure similarity of the human metabolite and the drug contained in the reference data set, And comparing the recipient operation characteristic curves generated based on the predicted values calculated using the predictive algorithm of the first embodiment with the predictive accuracy of the reference data set.

상기 추출하는 단계는,Wherein the extracting comprises:

상기 질병 연관 단백질 정보와, 상기 인체 대사물질 정보의 상호작용 관계 정보에 대해 상호작용 관계수를 토대로 유의성 평가를 수행하여, 통계적으로 유의미하다고 판단된 상호작용 관계 정보를 추출할 수 있다.Related information of the disease-related protein and the information on the interaction relation of the metabolite of the human body, and extracts the interaction relationship information determined to be statistically significant.

상기 추출하는 단계는, 적어도 둘 이상 서로 매칭된 상기 질병 연관 단백질 정보와, 상기 인체 대사물질 정보의 상호작용 관계 정보 중에서 상기 유의성 평가에 따른 유의 확률(P value)이 임계 조건을 충족하고, 상기 유의 확률에 따른 우선순위가 최우선인 상호작용 관계 정보를 추출하며, 추출된 상호작용 관계 정보는, 상기 질병 연관 단백질과 상기 인체 대사물질이 일대일로 매핑될 수 있다. Wherein the step of extracting comprises the step of determining whether a significance value (P value) according to the significance evaluation satisfies a threshold condition among the disease-related protein information matched to at least two or more and the interaction relation information of the human metabolism information, The interaction relationship information having a priority according to probability is given as a highest priority, and the extracted interaction relationship information can be mapped to the disease-related protein and the human metabolite one to one.

본 발명의 다른 특징에 따르면, 약물 재창출 후보 예측 방법은 적어도 하나의 프로세서에 의해 동작하는 시스템이 약물 재창출 후보를 예측하는 방법으로서, 이미 알려진 약물 및 인체 대사물질 각각의 화학적 구조의 유사성을 분석하여, 화학적 구조가 유사한 약물과 인체 대사물질을 매칭하는 단계, 상기 인체 대사물질을 상기 인체 대사물질과 상호작용 관계가 있는 질병 연관 단백질로 치환하는 단계, 그리고 상기 화학적 구조의 유사성이 임계 조건을 충족하는 약물 및 상기 약물에 매칭된 질병 연관 단백질을 추출하여, 상기 추출한 약물을 상기 추출한 질병 연관 단백질의 약물 재창출 후보로 예측하는 단계를 포함한다.According to another aspect of the present invention, a drug regeneration candidate prediction method is a method of predicting a drug regeneration candidate by a system that is operated by at least one processor. The drug regeneration candidate prediction method predicts drug regeneration candidates by analyzing similarity of chemical structures of known drugs and human metabolites A step of replacing the human metabolite with a disease-associated protein that interacts with the metabolism of the human metabolite, and determining whether the similarity of the chemical structure meets the critical condition And a disease-associated protein matched to the drug, and predicting the extracted drug as a drug regeneration candidate of the extracted disease-associated protein.

상기 화학적 구조의 유사성은, 상기 약물 및 상기 인체 대사물질 각각의 화학적 구조의 화학적 지문 간의 유사도 점수를 토대로 분석될 수 있다.The similarity of the chemical structure can be analyzed based on the degree of similarity between the chemical fingerprint of the chemical structure of each of the drug and the human metabolite.

상기 예측하는 단계는, 상기 약물 및, 상기 약물과 매칭된 질병 단백질 간의 화학적 구조 유사성 분석을 통해 산출된 유사도 점수가 기준 유사도 점수보다 높은 경우, 해당하는 약물을 재창출 후보로 예측하고, 상기 기준 유사도 점수는, 약물 표적 단백질, 인체 대사물질 및 약물간의 관계 정보를 포함하는 기준 데이터 세트의 화학적 구조 유사도 점수에 기초한 수신자 조작 특성 곡선(Receiver Operating Characteristic curve) 및 요덴 지표(Youden's Index)를 이용하여 선정될 수 있다.Wherein the predicting step predicting the corresponding drug as a regeneration candidate when the similarity score calculated through the chemical structure similarity analysis between the drug and the disease protein matched with the drug is higher than the reference similarity score, The score is selected using the Receiver Operating Characteristic curve and the Youden's Index based on the chemical structure similarity score of the reference data set including the drug target protein, the metabolites of the metabolites and the relationship between the drugs .

상기 치환하는 단계는, 적어도 둘 이상 서로 매칭된 질병 연관 단백질과, 인체 대사물질의 상호작용 관계 정보 중에서 임계 조건을 충족하는 유의 확률(P value)의 우선순위가 최우선인 상호작용 관계 정보를 이용할 수 있다.The substituting step may use the interaction relation information in which the priority of the significance value (P value) satisfying the threshold condition is the highest among the interaction relation information of at least two disease-related proteins matched with each other have.

본 발명의 또 다른 특징에 따르면, 약물 재창출 후보 예측 시스템은 적어도 하나의 프로세서에 의해 동작하고, 약물 재창출 후보를 예측하는 시스템으로서, 적어도 하나의 공개 데이터베이스로부터 수집한 질병 발생과 연관된 질병 연관 단백질 정보, 단백질과 화합물의 상호작용 정보 및 인체 대사물질 정보에 기초하여 질병 연관 단백질과 인체 대사물질 간의 상호작용 관계 정보를 추출하는 질병 연관 대사물질 정보 추출부, 화학적 구조의 유사성에 따라 이미 알려진 약물 별로 각각의 약물과 화학적 구조가 유사한 인체 대사물질을 매칭하고, 상기 약물 별로 매칭된 인체 대사물질을 상기 상호작용 관계 정보에 기초하여 상기 질병 연관 단백질로 치환하는 유사도 생성부, 그리고 상기 화학적 구조의 유사성이 임계 조건을 충족하는 약물 및 질병 연관 단백질을 추출하여, 상기 추출한 약물을 상기 추출한 단백질의 연관 질병의 약물 재창출 후보로 예측하는 약물 재창출 후보 예측부를 포함한다.According to another aspect of the present invention, a drug regeneration candidate prediction system is operated by at least one processor and is a system for predicting drug regeneration candidates, comprising: a disease-associated protein Related metabolite information extracting unit for extracting information on the interaction relationship between the disease-related protein and the human metabolite based on information, information of interaction between the protein and the compound, and human metabolite information, A similarity generating unit for matching a human metabolite having a chemical structure similar to that of each drug and replacing the human metabolic material matched for each drug with the disease related protein based on the interaction relationship information, Drug and disease associations that meet critical conditions And a drug regeneration candidate predicting unit for extracting the protein and for predicting the extracted drug as a drug regeneration candidate of the related disease of the extracted protein.

상기 질병 연관 대사물질 정보 추출부는, 상기 질병 연관 단백질 정보와, 상기 인체 대사물질 정보의 상호작용 관계 정보에 대해 상호작용 관계수를 토대로 유의성 평가를 수행하여, 유의 확률(P value)의 우선순위를 기반으로 통계적으로 유의미하다고 판단된 상호작용 관계 정보를 추출하고, 상기 유사도 생성부는, 상기 약물 및 상기 인체 대사물질 각각의 구조의 화학적 지문 간의 유사도 점수를 계산하여, 상기 약물과 상기 질병 연관 단백질간의 유사도 점수로 구성된 점수화 행렬을 생성하며, 상기 예측부는, 상기 점수화 행렬을 이용하여 상기 유사도 점수가 기준 유사도 점수보다 높은 약물 및 질병 연관 단백질을 상기 약물 재창출 후보로 예측하고, 예측한 정보를 화면에 출력할 수 있다.The disease-related metabolite information extracting unit performs a significance evaluation based on the number of interaction relations with the disease-related protein information and the interaction relation information of the human metabolite information, and determines the priority of the significance value (P value) Wherein the degree of similarity between the drug and the disease-related protein is calculated by calculating the degree of similarity between the chemical fingerprint of the structure of the drug and the metabolite of the human metabolism, Wherein the predictor uses the scoring matrix to predict the drug and disease associated protein having the similarity score higher than the reference similarity score to the drug regeneration candidate and outputs the predicted information to the screen can do.

상기 약물 재창출 후보 예측 시스템은, 공개 데이터베이스로부터 수집한 약물 표적 단백질 정보와, 상기 상호작용 관계 정보를 이용하여 선정한 기준 데이터 세트에 포함된 약물 표적 단백질, 인체 대사물질 및 약물간의 화학적 구조 유사도 점수에 기초하여 수신자 조작 특성 곡선(Receiver Operating Characteristic curve)을 생성하고, 상기 수신자 조작 특성 곡선에 따른 요덴 지표(Youden's Index)를 계산하여, 상기 요덴 지표가 가장 높은 유사도 점수를 상기 기준 유사도 점수로 선정하여 상기 예측부로 제공하는 기준 유사도 점수 선정부를 더 포함할 수 있다.The drug re-creation candidate predicting system is a method for predicting drug re-creation candidates based on drug target protein information collected from a public database and a chemical structure similarity score between a drug target protein, a human metabolite, and a drug contained in a reference data set selected using the interaction- A Receiver Operating Characteristic curve is generated based on the recipient operating characteristic curve, a Youden's Index according to the receiver operation characteristic curve is calculated, and a similarity score having the highest Yoden index is selected as the reference similarity score, And may further include a reference similarity score selecting unit provided to the predicting unit.

상기 약물 재창출 후보 예측 시스템은, 상기 약물 재창출 후보 예측부가 예측한 약물 및 질병 연관 단백질 간의 관계 정보를 포함한 약물 재창출 후보 정보를 저장하는 약물 재창출 후보 데이터베이스, 그리고 상기 약물 재창출 후보 데이터베이스와 연결되고, 통신망을 통해 접속된 단말에게 상기 약물 재창출 후보 데이터베이스로의 접근을 관리하는 사용자 인터페이스부를 더 포함할 수 있다.The drug regeneration candidate prediction system includes a drug regeneration candidate database storing drug regeneration candidate information including the relationship between the drug regeneration candidate prediction unit predicted by the regeneration candidate drug and the disease related protein, And a user interface unit for managing access to the drug regeneration candidate database to a terminal connected thereto via a communication network.

본 발명의 실시예에 따르면, 이미 인체에 대한 독성, 부작용 등의 데이터가 있는 임상 승인 약물들의 인체 대사 물질 유사도를 이용하여 질병 연관 표적과의 상호 작용을 추론함으로써, 약물 재창출 후보를 예측 및 발굴할 수 있다.According to the embodiment of the present invention, by predicting the interaction with the disease-related target using the metabolism similarity of the human body with the clinical-approved drug already having data on the toxicity and adverse effects on the human body, can do.

또한, 특정 질병 연관 표적 단백질과 상호 작용하는 알려진 약물정보가 없다고 하더라도 질병 연관 표적 단백질과 상호 작용하는 인체 대사 물질 관계와의 유사도를 기반으로 하여 특정 표적 단백질에 대한 기존 약물 중에서 약물 재창출 후보를 예측할 수 있다. 따라서, 종래에 약물 재창출을 하기 힘들었던 질병들까지 약물 재창출이 가능하도록 약물 재창출 공간을 증가시키는 효과가 기대된다.In addition, even if there is no known drug information that interacts with a particular disease-associated target protein, it is possible to predict drug regeneration candidates among existing drugs for a particular target protein based on the similarity with the human metabolic relationship that interacts with disease- . Therefore, it is expected to increase the drug regeneration space so as to regenerate the drug to the diseases which have conventionally been difficult to regenerate the drug.

또한, 약물 공간의 인체 대사 물질 유사도를 이용하여 약물 재창출 후보 예측에만 한정하지 않고, 선도물질 공간(lead space), 화학물질 공간(chemical space)으로 확장하여 신규 약물 후보를 예측하는 방법으로 사용할 수도 있다. In addition, it can be used as a method of predicting new drug candidates by expanding into lead space and chemical space, not limited to predicting drug candidates, by using similarity of metabolite in human body metabolism have.

또한, 약물 재창출이나 신규 약물 후보 예측과 더불어 약물의 신규 부작용(side-effect) 예측에도 응용 및 활용 될 수 있다.In addition, it can be applied and used in predicting new side effects of drugs as well as regenerating drugs or predicting new drug candidates.

또한, 인체 대사 물질 유사성을 기반으로 약물 후보를 예측하게 되면 약동학 및 약력학적으로 우수한 약물 후보가 예측될 가능성이 커진다.In addition, predicting drug candidates based on similarity in human metabolism increases the likelihood of predicting pharmacokinetic and pharmacodynamic superior drug candidates.

도 1은 본 발명의 한 실시예에 따른 약물 재창출 후보 예측 시스템의 개략적인 블록도이다.
도 2는 본 발명의 한 실시예에 따른 약물 재창출 후보 예측 방법의 순서도이다.
도 3은 본 발명의 한 실시예에 따른 약물 재창출 후보 예측 결과의 예시도이다.
도 4는 본 발명의 다른 실시예에 따른 약물 재창출 후보 예측 시스템의 개략적인 블록도이다.
도 5는 본 발명의 실시예에 따른 질병 연관 인체 대사 물질을 추출하는 과정을 나타낸 순서도이다.
도 6은 본 발명의 실시예에 따른 점수화 행렬을 생성하는 과정을 나타낸 순서도이다.
도 7은 본 발명의 실시예에 따른 유사도 행렬의 히트맵을 나타낸 것이다.
도 8은 본 발명의 실시예에 따른 기준 유사도 점수 선정 과정을 나타낸 순서도이다.
도 9는 본 발명의 한 실시예에 따른 기준 데이터 세트의 예시도이다.
도 10은 본 발명의 실시예와 종래 SwissTargetPrediction(STP) 알고리즘의 수신자 조작 특성 곡선을 비교한 도면이다.
도 11은 본 발명의 실시예와 종래 TargetNet(TN) 알고리즘의 수신자 조작 특성 곡선을 비교한 도면이다.
도 12는 본 발명의 실시예와 Libdock(Site-Directed Docking Program)의 수신자 조작 특성 곡선을 비교한 도면이다.
도 13은 본 발명의 한 실시예에 따른 수신자 조작 특성 곡선을 나타낸 그래프이다.
도 14는 본 발명의 한 실시예에 따른 요덴 지표를 나타낸 그래프이다.
도 15는 본 발명의 실시예에 따른 약물 재창출 후보 예측 과정을 나타낸 순서도이다.
도 16은 본 발명의 한 실시예에 따른 대사 길항 물질과 관련된 약물 재창출 후보를 나타낸 표이다.
도 17은 본 발명의 한 실시예에 따른 고쉐병과 연관된 효소 및 대사물질을 포함한 대사 경로의 단편을 보여준다.
도 18은 본 발명의 한 실시예에 따라 문헌 조사를 통해 근거가 뒷받침 된 후보들의 목록을 나타낸 표이다.
도 19는 본 발명의 또 다른 실시예에 따른 약물 재창출 후보 예측 시스템의 하드웨어 구성을 나타낸 블록도이다.
1 is a schematic block diagram of a drug regeneration candidate prediction system according to an embodiment of the present invention.
2 is a flowchart of a method for predicting drug regeneration candidates according to an embodiment of the present invention.
FIG. 3 is a diagram illustrating an example of a drug regeneration candidate prediction result according to an embodiment of the present invention.
4 is a schematic block diagram of a drug regeneration candidate prediction system according to another embodiment of the present invention.
FIG. 5 is a flowchart illustrating a process of extracting disease-related human metabolites according to an embodiment of the present invention.
6 is a flowchart illustrating a process of generating a scoring matrix according to an embodiment of the present invention.
FIG. 7 shows a heat map of a similarity matrix according to an embodiment of the present invention.
FIG. 8 is a flowchart illustrating a process of selecting a reference similarity score according to an embodiment of the present invention.
9 is an illustration of a set of reference data in accordance with one embodiment of the present invention.
FIG. 10 is a graph comparing recipient operating characteristic curves of an embodiment of the present invention and a conventional Swiss TargetPrediction (STP) algorithm.
11 is a graph comparing recipient operation characteristic curves of an embodiment of the present invention and a conventional TargetNet (TN) algorithm.
FIG. 12 is a diagram comparing recipient operation characteristic curves of an embodiment of the present invention and a site-directed docking program (Libdock).
FIG. 13 is a graph illustrating a recipient operating characteristic curve according to an embodiment of the present invention.
14 is a graph showing a Yodden index according to an embodiment of the present invention.
15 is a flowchart illustrating a drug regeneration candidate predicting process according to an embodiment of the present invention.
16 is a table showing a drug regeneration candidate related to a metabolic antagonistic substance according to an embodiment of the present invention.
Figure 17 shows a fragment of the metabolic pathway including enzymes and metabolites associated with Gossypollosis in accordance with one embodiment of the present invention.
FIG. 18 is a table showing a list of candidates supported by evidence through literature review according to an embodiment of the present invention.
19 is a block diagram illustrating a hardware configuration of a drug regeneration candidate prediction system according to another embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification, when an element is referred to as "comprising ", it means that it can include other elements as well, without excluding other elements unless specifically stated otherwise.

또한, 명세서에 기재된 "…부", "…기", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Also, the terms " part, "" ... "," module ", and the like described in the specification mean a unit for processing at least one function or operation and may be implemented by hardware or software or a combination of hardware and software .

도 1은 본 발명의 한 실시예에 따른 약물 재창출 후보 예측 시스템의 개략적인 블록도이고, 도 2는 본 발명의 한 실시예에 따른 약물 재창출 후보 예측 방법의 순서도이며, 도 3은 본 발명의 한 실시예에 따른 약물 재창출 후보 예측 결과의 예시도이고, 도 4는 본 발명의 다른 실시예에 따른 약물 재창출 후보 예측 시스템의 개략적인 블록도이다.FIG. 1 is a schematic block diagram of a drug regeneration candidate prediction system according to an embodiment of the present invention, FIG. 2 is a flowchart of a drug regeneration candidate prediction method according to an embodiment of the present invention, FIG. FIG. 4 is a schematic block diagram of a drug regeneration candidate prediction system according to another embodiment of the present invention. FIG. 4 is a schematic block diagram of a drug regeneration candidate prediction system according to an embodiment of the present invention.

먼저, 도 1을 참조하면, 약물 재창출 후보 예측 시스템(100)은 질병 연관 대사물질 정보 추출부(101), 유사도 생성부(103), 기준 유사도 선정부(105) 및 약물 재창출 후보 예측부(107)를 포함하고, 이들 구성의 동작에 대해 설명하면, 도 2와 같다.Referring to FIG. 1, a drug regeneration candidate prediction system 100 includes a disease-related metabolism information extracting unit 101, a similarity-generating unit 103, a reference similarity-degree selecting unit 105, And an operation unit 107. Operations of these structures are as shown in Fig.

도 2를 참조하면, 질병 연관 대사물질 정보 추출부(101)는 질병 연관 단백질과 인체 대사 물질 간의 상호작용 관계 정보를 추출한다(S101). 이때, 질병 연관 대사물질 정보 추출부(101)는 질병 단백질 데이터베이스(200), 단백질-화합물 상호작용 데이터베이스(300), 인체 대사물질 데이터베이스(400) 각각으로부터 수집한 정보들에 기초하여 질병 연관 단백질과 인체 대사 물질 간의 상호작용 관계 정보를 추출한다. 구체적인 동작은 도 5를 참고하여 후술한다.Referring to FIG. 2, the disease-associated metabolite information extracting unit 101 extracts information on interaction between the disease-associated protein and the human metabolite (S101). The disease-associated metabolite information extracting unit 101 extracts disease-related metabolites based on the information collected from the disease protein database 200, the protein-compound interaction database 300, and the human metabolism database 400, And extracts information on interaction between metabolites of human body. The specific operation will be described later with reference to Fig.

유사도 생성부(103)는 이미 임상에서 사용되고 있는 승인된 약물과 질병 연관 인체 대사물질 사이의 화학적 구조 유사도 점수에 따른 유사도 행렬을 생성한다(S103). 유사도 생성부(103)는 S101 단계에서 추출한 상호작용 관계 정보에 기초하여 S103 단계에서 생성된 유사도 행렬로부터 질병 연관 단백질을 매개로 하여 약물과 질병 연관 단백질 간의 점수화 행렬을 생성한다(S105). 즉, S103 단계에서 생성된 유사도 행렬에서 질병 연관 인체 대사 물질을 S101 단계에서 추출한 상호작용 관계 정보에 기초하여 질병 연관 단백질로 치환한다. The similarity degree generation unit 103 generates a similarity degree matrix according to the score of the chemical structure similarity between the approved drug and the disease-related metabolite already used in clinical use (S103). Based on the interaction relationship information extracted in step S101, the similarity generation unit 103 generates a scoring matrix between the drug and the disease-related protein through the disease-associated protein from the similarity matrix generated in step S103 (S105). That is, the disease-related human metabolite in the similarity matrix generated in step S103 is replaced with the disease-associated protein based on the interaction-related information extracted in step S101.

약물 재창출 후보 예측부(107)는 기준 유사도 선정부(105)가 선정한 기준 유사도 점수를 S105 단계에서 생성된 점수화 행렬에 적용하여 질병 별로 약물 재창출 후보를 예측한다(S107). The drug regeneration candidate predicting unit 107 predicts drug regeneration candidates for each disease by applying the reference similarity score selected by the reference similarity degree selecting unit 105 to the scoring matrix generated in step S105 (S107).

도 3을 참조하면, Mesothlioma라는 질병의 표적 효소(Targer Enzyme)는 GART이고 연관된 대사물질(Metabolite)은 10-Formyltetrahydrofolate이며, 구조 유사도 점수(0.97)가 가장 높은 약물(Top-similarity Drug)은 Leucovorin이다. 따라서, Leucovorin는 약물 재창출 후보(Drug Candidate)로 제시되었는데, 원래 이 약물의 연관 질병(Original Indication)은 Osteosarcoma이나, Mesothlioma라는 새로운 연관 질병(New Indication)에 대하여 약물 재창출 후보로 제시될 수 있다.Referring to FIG. 3, the target enzyme of the disease Mesothlioma is GART, the related metabolite is 10-formyltetrahydrofolate, and the top-similarity drug (Leucovorin) having the highest structural similarity score (0.97) . Thus, Leucovorin is presented as a drug candidate, and the original indication of this drug may be presented as a drug re-creation candidate for a new association, Osteosarcoma or Mesothlioma (New Indication) .

또한, Leukemia라는 질병의 표적 효소는 POLA/B이고, 연관된 대사물질은 dCTP이며, 구조 유사도 점수(0.81)가 가장 높은 약물은 Decitabine이다. 따라서, Decitabine는 약물 재창출 후보로 제시되었는데, 원래 이 약물의 연관 질병은 Myelodysplastic syndrome이나, Leukemia라는 질병에 대하여 약물 재창출 후보로 제시될 수 있다.In addition, the target enzyme of the disease Leukemia is POLA / B, the related metabolite is dCTP, and the drug with the highest structural similarity score (0.81) is Decitabine. Therefore, Decitabine has been proposed as a drug regeneration candidate, and its associated disease can be suggested as a drug regeneration candidate for Myelodysplastic syndrome or a disease called Leukemia.

이와 같이, 약물 재창출 후보 예측 시스템(100)은 질병 연관 인체 대사 물질과 기존 약물 간의 화학적 구조 유사성을 기반으로 하여 질병 연관 표적 단백질과 약물의 상호작용 관계를 추론함으로써, 질병 별로 약물 재창출이 될 수 있는 후보를 예측할 수 있다. Thus, the drug regeneration candidate prediction system 100 deduces the interaction relationship between the disease-associated target protein and the drug based on the chemical structure similarity between the disease-related human metabolite and the existing drug, The candidate can be predicted.

도 4를 참조하면, 약물 재창출 후보 예측부(107)는 표시 장치(700)와 연결될 수 있다. 약물 재창출 후보 예측부(107)는 표시 장치(700)의 화면에 예측된 약물 재창출 후보를 출력할 수 있다.Referring to FIG. 4, the drug regeneration candidate predicting unit 107 may be connected to the display device 700. The drug regeneration candidate predicting unit 107 can output the drug regeneration candidate predicted on the screen of the display device 700. [

또한, 약물 재창출 후보 예측부(107)는 질병 별로 예측한 약물 재창출 후보를 데이터베이스(109)에 저장하여, 약물 재창출 후보 데이터베이스(109)를 구축할 수 있다. 그리고 약물 재창출 후보 예측 시스템(100)은 사용자 인터페이스부(111)를 추가로 포함할 수 있다.Further, the drug regeneration candidate predicting unit 107 can store the drug regeneration candidate predicted for each disease in the database 109, and construct the drug regeneration candidate database 109. [ The medicament regeneration candidate prediction system 100 may further include a user interface unit 111.

사용자 인터페이스부(111)는 통신망(800)을 통해 연결된 단말(900)과 연결된다. 사용자 인터페이스부(111)는 약물 재창출 후보를 데이터베이스(109)에 대한 접근을 제공하는 수단으로, 통신망(800)을 통해 단말(900)과 연결되어 각종 정보를 교환할 수 있도록 구성될 수 있다. 예를들면, 사용자 인터페이스부(111)는 단말(900)이 질병 별로 약물 재창출 후보를 검색할 수 있는 환경을 제공할 수 있다. 통신망(800)은 동일한 하드웨어에서의 통신은 물론, 구내 정보 통신망(local area network, LAN), 도시권 통신망(metropolitan area network, MAN), 광역 통신망(wide area network, WAN), 인터넷, 2G, 3G, 4G 이동 통신망, 와이파이(Wi-Fi), 와이브로(Wibro) 등을 포함할 수 있으며, 통신 방식도 유선, 무선을 가리지 않으며 어떠한 통신 방식이라도 상관없다. 단말(900)은 스마트 폰, PC(Personal Computer), 태블릿 PC, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 웹 패드 등과 같이 메모리 수단을 구비하고 마이크로프로세서를 탑재하여 연산 능력을 갖춘 통신 기능을 구비할 수 있다.The user interface unit 111 is connected to the terminal 900 connected through the communication network 800. The user interface unit 111 may be configured to provide access to the database 109 and to exchange various information by being connected to the terminal 900 through the communication network 800. For example, the user interface unit 111 may provide an environment in which the terminal 900 can search for a drug regeneration candidate for each disease. The communication network 800 may be a network such as a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), the Internet, 4G mobile communication network, Wi-Fi, WiBro, etc. The communication method does not depend on wired or wireless, and any communication method may be used. The terminal 900 includes a memory unit such as a smart phone, a personal computer (PC), a tablet PC, a personal digital assistant (PDA), and a web pad, .

이제, 약물 재창출 후보 예측 시스템(100)의 세부 동작에 대해 설명하기로 한다. Now, the detailed operation of the drug regeneration candidate prediction system 100 will be described.

도 5는 본 발명의 실시예에 따른 질병 연관 인체 대사 물질을 추출하는 과정을 나타낸 순서도로서, 질병 연관 대사물질 정보 추출부(101)의 동작을 나타낸다.FIG. 5 is a flowchart showing a process of extracting disease-related metabolites according to an embodiment of the present invention, and shows the operation of the disease-associated metabolite information extraction unit 101.

도 5를 참조하면, 질병 연관 대사물질 정보 추출부(101)는 질병 연관 단백질과 인체 대사 물질 간의 상호작용 관계 정보를 추출한다. 여기서, 상호작용 관계 정보는 질병 연관 단백질과 상호 작용하는 인체 대사 물질 정보를 의미한다. 예를들면, 단백질의 하나인 Xanthine oxidase의 체내 퓨린(아데노신, 구아노신) 대사 작용으로 인해 대량으로 발생한 요산이 몸속에 축적되어 통풍을 유발하는데, Xanthine oxidase, 퓨린, 통풍의 관계가 질병 연관 단백질과 인체 대사 물질 간의 상호작용 관계 정보가 될 수 있다.Referring to FIG. 5, the disease-associated metabolite information extracting unit 101 extracts interaction-related information between a disease-associated protein and a human metabolite. Here, the interaction relationship information refers to human metabolite information interacting with a disease-associated protein. For example, a large amount of uric acid accumulates in the body due to the metabolism of purines (adenosine, guanosine) in the body of Xanthine oxidase, which is one of the proteins, causing gout, and the relationship between Xanthine oxidase, It can be information about the interaction relationship between metabolites of human body.

먼저, 질병 연관 대사물질 정보 추출부(101)는 질병 단백질 데이터베이스(200)로부터 질병 연관 단백질 정보를 수집한다(S201). 여기서, 질병 연관 단백질 정보는 특정 질병의 발병의 원인이 되거나 관여하는 단백질 정보를 의미한다. 이때, 추출부는 'DisGeNet'과 같은 공개 데이터베이스를 이용할 수 있다.First, the disease-associated metabolite information extracting unit 101 collects disease-related protein information from the disease protein database 200 (S201). Herein, the disease-related protein information refers to protein information that is responsible for or causes the onset of a specific disease. At this time, the extracting unit can use an open database such as 'DisGeNet'.

질병 연관 대사물질 정보 추출부(101)는 단백질-화합물 상호작용 데이터베이스(300)로부터 단백질-화합물 상호작용 정보를 수집한다(S203). 여기서, 단백질-화합물 상호작용 정보는 특정 단백질과 반응성이 있는 화합물 정보를 의미하며, 예를들면, 세포 재생에 관여하는 단백질과 저분자 화합물 정보 등을 포함할 수 있다. 이때, 질병 연관 대사물질 정보 추출부(101)는 'STITCH', 'KEGG', 'BRENDA'과 같은 공개 데이터베이스를 이용할 수 있다.The disease-associated metabolite information extracting unit 101 collects protein-compound interaction information from the protein-compound interaction database 300 (S203). Here, the protein-compound interaction information refers to compound information that is reactive with a specific protein, and may include, for example, information on proteins and low molecular compounds involved in cell regeneration. At this time, the disease-related metabolite information extracting unit 101 can use a public database such as 'STITCH', 'KEGG', and 'BRENDA'.

질병 연관 대사물질 정보 추출부(101)는 인체 대사 물질 데이터베이스(400)로부터 인체 대사 물질 정보를 수집한다(S205). 여기서, 대사물질은 대사에 참여하거나 그것으로 생성되는 화학 화합물을 말한다. 대사반응은 효소(Enzyme)의 촉매작용에 의하여 진행된다. 대사는 일반적으로 효소의 기능적 집합체(효소계)의 작용이며, 기질(substrate)의 화학결합이 하나씩 변화하여 대사물질이 된다. 이때, 질병 연관 대사물질 정보 추출부(101)는 'Recon2', 'HMDB'와 같은 공개 데이터베이스를 이용할 수 있다. The disease-associated metabolite information extracting unit 101 collects human metabolite information from the human metabolite database 400 (S205). Here, a metabolite refers to a chemical compound that participates in metabolism or is produced by it. Metabolic reactions are catalyzed by enzymes. Metabolism is generally the function of enzymatic functional groups (enzymes), and the chemical bonds of the substrate are changed one by one to become metabolites. At this time, the disease-related metabolite information extracting unit 101 can use a public database such as 'Recon2' and 'HMDB'.

이때, 효소는 각종 화학반응에서 자신은 변화하지 않으나 반응속도를 빠르게 하는 단백질을 말한다. 기질은 효소가 촉매시키는 특정한 반응 분자나 분자 그룹을 말한다.At this time, the enzyme refers to a protein that does not change itself in various chemical reactions but speeds up the reaction. Substrate refers to a specific reactive molecule or group of molecules catalyzed by the enzyme.

질병 연관 대사물질 정보 추출부(101)는 질병 연관 단백질 정보를 이용하여 단백질-화합물 상호작용 정보 중에서 질병 연관 단백질-화합물 상호작용 정보를 추출한다(S207). The disease-associated metabolite information extracting unit 101 extracts disease-related protein-compound interaction information from the protein-compound interaction information using the disease-related protein information (S207).

질병 연관 대사물질 정보 추출부(101)는 인체 대사 물질 정보를 이용하여 질병 연관 단백질-화합물 상호작용 정보 중에서 인체 대사 물질과 관련된 질병 연관 상호작용 정보를 추출(S209)하여, 질병 연관 단백질과 인체 대사 물질간의 상호작용 관계를 매핑한다(S211). The disease-associated metabolite information extracting unit 101 extracts disease-related interaction information related to the human metabolism from the disease-related protein-compound interaction information (S209) using human metabolite information (S209) The interaction relationship between the substances is mapped (S211).

이때, 질병 연관 대사물질 정보 추출부(101)가 단순히 수집한 정보들을 매핑하기만 하면 하나의 질병 연관 단백질에 하나의 인체 대사 물질 상호작용 정보가 추출 되는 것이 아니라 여러 인체 대사 물질과의 상호작용 관계가 추출된다. 본 발명에서는 질병 연관 인체 대사 물질을 매개로 하여 새로운 질병 연관 단백질-약물 상호작용 관계를 예측하는 것이므로, 가장 유의미한 질병 연관 인체 대사 물질을 우선순위화하는 과정이 필요하다. 유의미한 질병 연관 인체 대사 물질을 우선순위화하기 위해 인체 대사 물질과 특정 질병 연관 단백질들과 상호작용 관계수를 기준으로 하여 질병 연관 인체 대사 물질 관계를 정할 수 있다.At this time, if the disease-associated metabolite information extracting unit 101 simply maps the collected information, one human metabolite interaction information is not extracted into one disease-associated protein but the interaction relation with various human metabolites Is extracted. Since the present invention predicts a new disease-associated protein-drug interaction relationship through disease-associated human metabolites, a process of prioritizing the most relevant disease-related human metabolites is needed. To prioritize meaningful disease-related human metabolites, disease-related human metabolite relationships can be defined based on the number of interaction relationships with human metabolites and specific disease-associated proteins.

한 실시예에 따르면, 질병 연관 대사물질 정보 추출부(101)는 인체 대사 물질과 특정 질병 연관 단백질들 간의 상호작용 관계 수를 기준으로 유의성 평가를 한다(S213). 질병 연관 대사물질 정보 추출부(101)는 인체 대사 물질과 특정 질병 연관 단백질들 간의 상호작용 관계 수를 이용하여 빈도표를 생성할 수 있다. 빈도표는 2×2로 구현될 수 있는데, 특정 인체 대사 물질과, 그 물질과 상호작용 관계가 있는 질병 연관 단백질의 관계수를 빈도수로 하여 생성된다. 예를들면, 질병들과 연관된 단백질의 개수가 N개, 인체 대사 물질이 M개이며, 특정 인체 대사 물질 B가 질병 A 연관 단백질 a개와 상호작용한다고 하자. 그리고 특정 대사 물질 B가 질병 A 이외의 질병과 연관된 단백질 b개와 상호작용한다고 하자. 또한, 특정 대사 물질 B를 제외한 인체 대사 물질 M-1개가 질병 A 연관 단백질과 상호작용하는 개수를 c라고 하고, 질병 A 이외의 질병과 연관된 단백질과 상호작용하는 개수를 d라고하면 2×2의 빈도표는 표 1과 같이 생성된다. According to one embodiment, the disease-associated metabolite information extracting unit 101 performs a significance evaluation based on the number of interaction relations between the human metabolite and specific disease-associated proteins (S213). The disease-associated metabolite information extracting unit 101 can generate the frequency table using the number of interaction relations between the human metabolite and specific disease-associated proteins. The frequency table can be implemented as 2 × 2, with the frequency of the number of relationships between a specific human metabolite and disease-associated proteins that interact with the substance. For example, suppose that the number of proteins associated with diseases is N, the number of human metabolites is M, and a particular human metabolite B interacts with a disease-associated protein a. Let's assume that a particular metabolite B interacts with a protein b that is associated with a disease other than disease A. In addition, when the number of the metabolites M-1 except for a specific metabolite B interacts with the disease A-related protein is c and the number of the protein interacting with the disease other than the disease A is d, Frequency tables are generated as shown in Table 1.

질병 A 연관 단백질Disease-associated protein 질병 A이외의 질병 연관 단백질Disease-associated protein other than disease A system 특정 인체 대사물질 BCertain human metabolites B aa bb a+ba + b 그외의 인체 대사물질Other human metabolites cc dd c+dc + d system a+ca + c b+db + d a+b+c+da + b + c + d

질병 연관 대사물질 정보 추출부(101)는 특정 인체 대사 물질과 특정 질병 연관 단백질들과의 상호작용 관계가 통계적으로 유의미한지를 평가하며, 유의성 평가는 피셔의 정확 검정(fisher exact test)을 활용할 수 있다. 유의성 평가를 통해 산출된 유의 확률(p-value)이 임계값 0.05 이하의 값을 가지면, 그 상호작용 관계는 유의미하다고 평가한다. The disease-associated metabolite information extracting unit 101 evaluates whether the interaction relation between a specific human metabolite and specific disease-related proteins is statistically significant, and the significance evaluation can utilize a fisher exact test . If the significance probability (p-value) calculated through the significance evaluation has a value less than the threshold value of 0.05, the interaction relation is evaluated as meaningful.

질병 연관 대사물질 정보 추출부(101)는 유의하다고 평가된 상호작용 관계 정보를 유의 확률을 기준으로 우선순위화하고, 우선순위가 가장 높은 상호작용 관계 정보를 질병 연관 인체 대사 물질 정보로 추출한다(S215). 이러한 방법을 통해 하나의 인체 대사 물질과 하나의 특정 질병 연관 단백질 간의 상호작용 관계 정보, 즉, 질병 연관 인체 대사 물질 정보를 추출한다. The disease-related metabolite information extracting unit 101 prioritizes the interaction relationship information evaluated as being important based on the significance probability, and extracts the interaction relation information having the highest priority as the disease-related human metabolite information S215). In this way, information on the interaction relationship between one human metabolite and one specific disease-related protein, that is, disease-related human metabolite information, is extracted.

도 6은 본 발명의 실시예에 따른 점수화 행렬을 생성하는 과정을 나타낸 순서도이고, 도 7은 본 발명의 실시예에 따른 유사도 행렬의 히트맵을 나타낸 것이다. 이때, 도 6 및 도 7은 유사도 생성부(103)의 동작을 나타낸다.FIG. 6 is a flowchart illustrating a process of generating a scoring matrix according to an embodiment of the present invention, and FIG. 7 illustrates a heat map of a similarity matrix according to an embodiment of the present invention. 6 and 7 illustrate the operation of the similarity generation unit 103. As shown in FIG.

먼저, 도 6을 참조하면, 유사도 생성부(103)는 공개된 약물 데이터베이스(500)로부터 약물 정보를 수집한다. 이때, 약물 정보는 FDA(Food and Drug Administration) 승인 약물 1,861 개일 수 있다. First, referring to FIG. 6, the similarity generation unit 103 collects drug information from the disclosed drug database 500. At this time, the drug information may be 1,861 FDA (Food and Drug Administration) approved drugs.

유사도 생성부(103)는 수집한 모든 약물과 인체 대사 물질 데이터베이스(400)로부터 수집된 인체 대사 물질 각각의 구조 정보 파일을 공개 데이터베이스로부터 각각 수집한다(S301). 이때, 공개 데이터베이스는 예를들면, 'DrugBank', 'Recon2' 등이 이용될 수 있다. The similarity generation unit 103 collects structural information files of each metabolite collected from all the collected drugs and the metabolite database 400 from the public database (S301). At this time, for example, 'DrugBank', 'Recon2', etc. may be used as the public database.

유사도 생성부(103)는 'DrugBank'로부터 약물의 구조 정보 파일을 수집하고, 'Recon2'로부터 인체 대사 물질의 구조 정보 파일을 수집할 수 있다. 여기서, 구조 정보 파일은 화합물 구조를 표현하는 파일 형식일 수 있는데, 예를들면, sdf, smiles, inchi 등의 파일 형식을 포함한다.The similarity generation unit 103 may collect the structure information file of the drug from the 'DrugBank' and collect the structure information file of the human metabolism from the 'Recon2'. Here, the structure information file may be a file format representing a compound structure, for example, a file format such as sdf, smiles, and inchi.

한 실시예에 따르면, 유사도 생성부(103)는 수집(S301)한 약물과 인체 대사 물질 각각의 sdf 파일을 이용하여 모든 구조의 화학적 지문(chemical fingerprint)을 생성한다(S303). 이때, 유사도 생성부(103)는 Python의 RDKit module을 이용하여 MACCS key fingerprint 형태의 화학적 지문을 생성할 수 있다.According to one embodiment, the similarity generation unit 103 generates a chemical fingerprint of all structures using the sdf file of each of the drug and the human metabolite collected (S301) (S303). At this time, the similarity generation unit 103 can generate a MACCS key fingerprint type chemical fingerprint using the Python RDKit module.

유사도 생성부(103)는 화학적 지문을 이용하여 약물과 인체 대사 물질 사이의 화학 구조적 유사도를 계산한다(S305). 한 실시예에 따르면 타니모토 유사도(Tanimoto similarity)를 이용하여 구조 유사도 점수를 계산할 수 있다.The similarity generation unit 103 calculates a chemical structural similarity between a drug and a human metabolite using a chemical fingerprint (S305). According to one embodiment, the structural similarity score can be calculated using Tanimoto similarity.

유사도 생성부(103)는 모든 약물을 각각의 인체 대사 물질 들과의 구조 유사도를 계산하여, 구조 유사도 행렬을 생성한다(S307).The similarity level generator 103 calculates the similarity degree of each drug with respect to each metabolite of the human body to generate a structural similarity matrix (S307).

유사도 생성부(103)는 S307 단계에서 생성된 구조 유사도 행렬을 히트맵 함수를 이용하여 계측적 클러스터링(S309)한다. 그리고 구조 유사도 점수를 복수의 구간으로 분할하고, 분할된 각 구간에 할당된 색상을 달리하여 도 7과 같이, 히트맵 형태로 출력한다(S311).The similarity generation unit 103 performs the measurement clustering (S309) using the heat map function, the structure similarity matrix generated in step S307. Then, the structure similarity score is divided into a plurality of sections, and the colors assigned to the divided sections are varied to output in the form of a heat map as shown in FIG. 7 (S311).

이때, 유사도 생성부(103)는 FDA 승인 약물 1,861 개와, 인체 대사 물질 1,110개의 타니모토 유사도 점수를 가지는 구조 유사도 행렬을 생성할 수 있다. 유사도 생성부(103)는 생성된 구조 유사도 행렬을 R의 heatmap.2 함수를 이용하여 계층적 클러스터링하고, 타니모토 유사도 점수를 10등분하여 각각 다른 색으로 표시함으로써, 가독성을 높일 수 있다. 여기서, 히트맵은 x축과 y축으로 나타낸 그래프 혹은 2차원의 지도 위에 특정 연속형 변수의 값에 따라 색깔을 조금씩 다르게 하여 정보를 보여주는 시각화 방법이다. At this time, the similarity level generator 103 can generate a structural similarity matrix having 1,861 FDA-approved drugs and 1,110 humanoid metabolism scores. The similarity degree generator 103 hierarchically clusters the generated structure similarity matrices using the heatmap.2 function of R, and divides the Tanimoto similarity score into 10 equal parts and displays them in different colors, thereby improving readability. Here, the heat map is a visualization method that displays information by slightly different colors according to values of a certain continuous variable on a graph represented by x-axis and y-axis or on a two-dimensional map.

유사도 생성부(103)는 S307 단계에서 생성한 약물-인체 대사 물질 유사도 행렬로부터 질병 연관 인체 대사 물질을 매개로 하여 질병 연관 단백질-약물 점수화 행렬을 생성한다(S313). 여기서, 도 5에서 설명한 바에 따르면, 질병 연관 인체 대사 물질 정보는 하나의 인체 대사 물질과 하나의 특정 질병 연관 단백질 간의 상호작용 관계 정보(일대일 매핑 정보)를 포함한다. 그러므로, 유사도 행렬의 인체 대사 물질을 상호작용 관계 정보에 따른 질병 연관 단백질로 치환하고 구조 유사도 점수를 기준으로 내림차순 정리하면, 질병 연관 단백질과 약물 간의 점수화 행렬을 생성할 수 있다. 이때, 유사도 생성부(103)는 도 7과 같이 히트맵 형태로 점수화 행렬을 제공할 수도 있다.The similarity-level generating unit 103 generates a disease-related protein-drug scoring matrix through the disease-associated human metabolism from the drug-metabolism similarity matrix generated in step S307 (S313). Here, as explained in FIG. 5, the disease-related human metabolite information includes information on interaction relationship (one-to-one mapping information) between one human metabolite and one specific disease-associated protein. Therefore, substitution of the human metabolite of the similarity matrix with the disease-related protein according to the interaction-related information and the descending order based on the structural similarity score can generate a scoring matrix between the disease-associated protein and the drug. At this time, the similarity generation unit 103 may provide a scoring matrix in the form of a heat map as shown in FIG.

도 8은 본 발명의 실시예에 따른 기준 유사도 점수 선정 과정을 나타낸 순서도이고, 도 9는 본 발명의 한 실시예에 따른 기준 데이터 세트의 예시도이며, 도 10은 본 발명의 실시예와 종래 SwissTargetPrediction(STP) 알고리즘의 수신자 조작 특성 곡선을 비교한 도면이며, 도 11은 본 발명의 실시예와 종래 TargetNet(TN) 알고리즘의 수신자 조작 특성 곡선을 비교한 도면이고, 도 12는 본 발명의 실시예와 Libdock(Site-Directed Docking Program)의 수신자 조작 특성 곡선을 비교한 도면이며, 도 13은 본 발명의 한 실시예에 따른 수신자 조작 특성 곡선을 나타낸 그래프이고, 도 14는 본 발명의 한 실시예에 따른 요덴 지표를 나타낸 그래프이다.FIG. 8 is a flowchart illustrating a process of selecting a reference similarity score according to an exemplary embodiment of the present invention. FIG. 9 is a view illustrating an example of a reference data set according to an embodiment of the present invention. FIG. 10 is a block diagram of a conventional SwissTargetPrediction (STP) algorithm. FIG. 11 is a graph comparing recipient operating characteristic curves of a conventional TargetNet (TN) algorithm according to an embodiment of the present invention. FIG. FIG. 13 is a graph showing recipient operating characteristic curves according to an embodiment of the present invention, and FIG. 14 is a graph illustrating a recipient operating characteristic curve of a site-directed docking program according to an embodiment of the present invention. Fig.

이때, 8, 9, 10, 11, 12는 기준 유사도 선정부(105)의 동작을 나타낸다.At this time, 8, 9, 10, 11, and 12 indicate the operation of the reference similarity degree selection unit 105.

먼저, 도 8을 참조하면, 기준 유사도 선정부(105)는 공개된 약물 표적 단백질 데이터베이스(600)로부터 약물 표적 단백질 정보를 추출한다. 그리고 질병 연관 대사물질 정보 추출부(101)에서 제공받은 질병 연관 대사물질 정보와 약물 표적 단백질 정보에 기초하여, 약물 표적 단백질-인체 대사물질-약물을 추출한다. 그리고 약물 표적 단백질-인체 대사물질-약물 중에서 기준 데이터 세트(gold standard positive)를 선정한다(S401). 이때, 약물 데이터베이스(500)와 약물 표적 단백질 데이터베이스(600)는 하나의 공개된 데이터베이스로, 'Drugbank'가 사용될 수 있다.First, referring to FIG. 8, the reference similarity degree selection unit 105 extracts drug target protein information from an open drug target protein database 600. The drug target protein-human metabolite-drug is extracted based on the disease-associated metabolite information and drug target protein information provided by the disease-associated metabolite information extracting unit 101. And a gold standard positive is selected from the drug target protein-human metabolite-drug (S401). At this time, the drug database 500 and the drug target protein database 600 are one open database, and a 'Drugbank' may be used.

이때, 기준 유사도 선정부(105)는 구조 유사도 점수가 기준값을 충족하는 약물 표적 단백질-인체 대사물질-약물을 기준 데이터 세트로 선정할 수 있다. 여기서, 기준값은 0.5 이상으로 설정될 수 있다. At this time, the reference similarity degree selection unit 105 can select the drug target protein-human metabolite-drug whose structural similarity score satisfies the reference value as a reference data set. Here, the reference value may be set to 0.5 or more.

이러한 기준 데이터 세트는 약물 표적 단백질-인체 대사물질과, 약물, 이들의 구조 유사도 점수(Similarity) 및 유의 확률(P-value)을 포함하며, 구조 유사도 점수에 따라 우선순위화되어 정렬될 수 있다. 이때, 구조 유사도 점수는 도 6의 S313 단계에서 산출한 질병 연관 단백질-약물 점수화 행렬로부터 제공된다. 그리고 유의 확률은 도 5의 S213 단계를 통해 산출한 질병 연관 인체 대사 물질의 유의성 평가를 통해 도출된 값이다. These reference data sets include the drug target protein-human metabolite, the drug, their structural similarity score and the significance (P-value), and can be prioritized and sorted according to the structural similarity score. At this time, the structural similarity score is provided from the disease-related protein-drug scoring matrix calculated in step S313 of FIG. And the significance probability is a value derived from the significance evaluation of the disease-related human metabolite calculated through the step S213 of FIG.

본 발명의 한 실시예에 따르면, 기준 데이터 세트로 대사 길항 물질(antimetabolite) 계열의 약물을 이용할 수 있다. 여기서, 대사 길항 물질 계열의 약물들은 특정 효소의 기질 유사체(substrate analog)로 작용하여 효소의 활성을 저해함으로써 약효를 보이는 약물들이다. 이러한 대사 길항 물질 계열 약물은 인체 대사 물질과 구조 유사도가 높은 약물에 부합하는 좋은 예시의 약물이다. According to one embodiment of the present invention, a metabolic antimetabolite family of drugs may be used as the reference data set. Here, the drugs of the metabolic antagonistic substance series are drugs that act as a substrate analog of a specific enzyme to inhibit the activity of the enzyme, thereby exhibiting a drug effect. These metabolic antagonists are good examples of drugs that are compatible with drugs that have a high structural similarity to human metabolites.

따라서, 이미 임상에서 사용되고 있는 대사 길항 물질 약물 들로부터 얻을 수 있는 표적 효소-기질-대사 길항 물질의 관계 정보를 기준 데이터 세트로 하여 인체 대사 물질 유사도 기반 질병 연관 단백질-약물 상호작용 예측을 수행한다.Therefore, the metabolism analogy-based disease-related protein-drug interaction prediction is performed using the relationship information of the target enzyme-substrate-metabolic antagonist obtained from metabolic antagonist drugs already in clinical use as reference data sets.

그러나, 본 발명이 대사 길항 물질 계열 약물로 국한되는 것은 아니며, 다양한 약물에 본 발명의 구성 및 방법을 적용할 수 있다.However, the present invention is not limited to a metabolite-antagonistic substance-based drug, and the composition and method of the present invention can be applied to various drugs.

기준 유사도 선정부(105)는 공개 데이터베이스로부터 수집하거나 또는 사용자가 입력한 데이터베이스로부터 대사 길항 물질 약물들과 약물 각각의 표적 정보를 수집한다. 기준 유사도 선정부(105)는 기질과 반응을 매개하는 효소 정보를 'Recon2', 'KEGG human pathway', 'BRENDA' 데이터베이스로부터 수집할 수 있다.The reference similarity degree selection unit 105 collects from the public database or collects the target information of each of the metabolite antagonistic drugs and the drug from the database entered by the user. The reference similarity selection unit 105 can collect enzyme information mediating the substrate and the reaction from the 'Recon2', 'KEGG human pathway', and 'BRENDA' databases.

한 실시예에 따르면, 기준 유사도 선정부(105)는 대사 길항 물질 약물의 표적 중 효소만을 고려하고, 약물과 표적 효소 기질과의 구조 유사도 기준값 즉, 0.5 이하의 화학적 구조 유사도 점수를 갖는 경우, 제외하였다. 기준 유사도 선정부(105)는 대사 길항 물질 계열 약물의 표적 효소가 매개하는 두 개 이상의 기질과 매핑될 경우, 표적 효소가 매개하는 반응의 기질 중 대사 길항 물질 계열 약물과 화학적 구조 유사도가 가장 높은 기질 만을 고려하였다.According to one embodiment, the reference similarity degree selection unit 105 considers only the enzymes in the target of the metabolic antagonist drug, and when there is a structural similarity reference value between the drug and the target enzyme substrate, that is, a chemical structure similarity score of 0.5 or less, Respectively. When the reference similarity-predicting unit 105 is mapped to two or more substrates mediated by a target enzyme of a metabolic antagonist drug, the substrate 105 having the highest chemical structure similarity with the metabolite antagonist-based drug in the substrate of the reaction mediated by the target enzyme .

예를들면, Gemcitabine(대사 길항 물질) - TYMS(표적 효소) - dUMP(기질) - 0.82(유사도) 관계가 매핑되고, 또한 Gemcitabine(대사 길항 물질) - TYMS(표적 효소) - Methylene(기질) - 0.62(유사도)도 매핑 될 때, 둘 다 유사도는 0.5보다 높지만, 유사도가 가장 높은 첫번째 관계(유사도 0.82)만을 고려해서 기준 데이터 세트로 선정할 수 있다.For example, Gemcitabine (metabolic antagonist) - TYMS (target enzyme) - dUMP (substrate) - 0.82 (similarity) relationship is mapped and Gemcitabine (metabolic antagonist) - TYMS (target enzyme) - Methylene - When 0.62 (degree of similarity) is also mapped, both can be selected as the reference data set considering only the first relation (similarity 0.82), which is higher than 0.5 but higher in similarity.

이러한 방식으로, 기준 유사도 선정부(105)는 18개의 대사 길항 물질, 11개의 표적 효소, 15개의 기질 간의 관계로 이루어진 기준 데이터 세트를 선정할 수 있고, 선정된 기준 데이터 세트는 도 9와 같다.In this manner, the reference similarity degree selection unit 105 can select a reference data set having a relationship between 18 metabolic antagonistic substances, 11 target enzymes, and 15 substrates, and the selected reference data set is as shown in FIG.

도 9를 참조하면, 기준 데이터 세트는 표적 효소(Target Enzyme), 표적 효소가 반응을 매개하는 기질(Substrate), 대사 길항 물질(Antimetabolite)을 포함하고, 이들의 구조 유사도 점수(Similarity) 및 유의 확률(P-value)을 포함한다.9, the reference data set includes a target enzyme, a substrate to which a target enzyme mediates a reaction, and an antimetabolite, and their structural similarity score and significance probability (P-value).

이때, 구조 유사도 점수는 도 6, 7의 질병 연관 단백질-약물 점수화 행렬로부터 제공된다. 그리고 유의 확률은 도 5를 통해 산출한 질병 연관 인체 대사 물질의 유의성 평가를 통해 도출된 값으로서, 대사 길항 물질에 매핑된다. 대사 길항 물질은 인체 대사 물질과 구조가 유사하므로, 특정 인체 대사 물질과 특정 질병 연관 단백질의 상호작용 관계가 통계적으로 유의미한지를 나타내는 유의성 평가를 도출된 값으로 매핑된다.At this time, the structural similarity score is provided from the disease-associated protein-drug scoring matrix of FIGS. The probability of significance is a value derived from the significance evaluation of the disease-related human metabolite calculated in FIG. 5, and is mapped to the metabolic antagonist. Metabolism antagonists are similar in structure to human metabolites, so a significance assessment is mapped to a derived value indicating whether the interaction relationship between a particular human metabolite and a particular disease-associated protein is statistically significant.

다시, 도 8을 참조하면, 기준 유사도 선정부(105)는 성능 비교를 수행하여, 선정한 기준 데이터 세트의 예측 정확도를 검증한다(S403). 이때, 수신자 조작 특성 곡선(Receiver Operating Characteristic curve)을 토대로 기준 데이터 세트의 예측 정확도를 검증한다.Referring again to FIG. 8, the reference similarity degree selection unit 105 performs a performance comparison to verify the prediction accuracy of the selected reference data set (S403). At this time, the prediction accuracy of the reference data set is verified based on the Receiver Operating Characteristic curve.

여기서, 기준 유사도 선정부(105)는 수신자 조작 특성 곡선을 생성하기 위해 R 프로그래밍 언어의 ROCR 라이브러리를 사용할 수 있다. ROCR은 X축 및 Y축에 대한 하나의 성능 척도를 자유롭게 선택하여 ROC 곡선을 그리는 프로그램이다.Here, the reference similarity degree selection unit 105 can use the ROCR library of the R programming language to generate the receiver operation characteristic curve. ROCR is a program that draws a ROC curve by freely selecting one performance measure for the X and Y axes.

기준 유사도 선정부(105)는 도 7의 유사도 행렬 중에서 기준 데이터 세트에 포함되는 유사도 점수에 기초하여 본 발명의 수신자 조작 특성 곡선을 생성한다. The reference similarity degree selection unit 105 generates the recipient operation characteristic curve of the present invention based on the similarity score included in the reference data set among the similarity degree matrices of Fig.

기준 유사도 선정부(105)는 본 발명과의 성능 비교를 위해 이미 알려진(또는 공개된) 예측 알고리즘 3개, 즉, SwissTargetPrediction, TargetNet, Libdock(Site-Directed Docking Program) 각각을 사용하여 기준 데이터 세트에에 대한 수신자 조작 특성 곡선을 생성한다.The reference similarity degree selection unit 105 uses three already known (or disclosed) prediction algorithms, i.e., SwissTargetPrediction, TargetNet, and Libdock (Site-Directed Docking Program) Lt; RTI ID = 0.0 > a < / RTI >

여기서, SwissTargetPrediction(STP) 알고리즘은 2차 및 3차원 화학적 구조 유사도 점수의 조합을 이용하여 분자-표적 상호작용을 예측한다. STP 알고리즘은 웹 기반 도구로 질의 분자에 대해 최대 15개의 상호작용 가능성이 있는 표적을 예측하여 제공한다. 따라서, 기준 유사도 선정부(105)는 1,861개의 FDA 승인 약물을 STP 도구에 질의하여 예측 표적 후보를 추출하고, STP 도구에서 제공되는 확률 점수를 기준으로 하여 분자-표적을 내림차순으로 정렬한다. 그리고 기준 유사도 선정부(105)는 이러한 확률 점수를 토대로 수신자 조작 특성 곡선을 생성하여, 본 발명과 비교하면, 도 10과 같다. STP 도구에서는 총 26개의 기준 데이터 세트 관계 중 13개의 관계만을 예측해 주었기 때문에, 13개의 관계만을 기준 데이터 세트로 하여 본 발명과의 비교를 진행했다.Here, the SwissTargetPrediction (STP) algorithm predicts molecular-target interactions using a combination of second- and third-dimensional chemical structure similarity scores. The STP algorithm is a web-based tool that predicts and provides up to 15 possible interactions for query molecules. Therefore, the reference similarity degree selection unit 105 queries the STP tool for 1,861 FDA-approved drugs to extract a predicted target candidate, and aligns the molecule-target in descending order based on the probability score provided in the STP tool. Then, the reference similarity degree selection unit 105 generates a receiver operation characteristic curve based on this probability score, and is compared with the present invention as shown in FIG. Since the STP tool predicts only 13 relationships among the 26 reference data set relationships, only 13 relationships are used as the reference data sets, and the comparison with the present invention is proceeded.

도 10을 참조하면, 본 발명의 수신자 조작 특성 곡선(Metabolite-likeness)과 SwissTargetPrediction의 수신자 조작 특성 곡선을 나타내고 있다.Referring to FIG. 10, the receiver operation characteristic curve of the receiver operation characteristic curve (Metabolite-likeness) and SwissTargetPrediction of the present invention is shown.

또한, TargetNet(TN) 알고리즘은 structure-activity relationship(SAR) 모델을 기반으로 분자-표적 상호작용을 예측한다. TN 알고리즘 역시 웹 기반 도구로서, 기준 유사도 선정부(105)는 1,861개의 FDA 승인 약물을 TN 도구에 질의하여 예측 표적 후보를 추출하고, TN 도구에서 제공되는 확률 점수를 기준으로 하여 분자-표적을 내림차순으로 정렬한다. 그리고 기준 유사도 선정부(105)는 이러한 확률 점수를 토대로 수신자 조작 특성 곡선을 생성하여, 본 발명과 비교하면, 도 11과 같다. TN 도구에서도 STP 도구와 마찬가지로 총 26개의 기준 데이터 세트 관계 중 13개의 관계만을 예측해 주었기 때문에, 13개의 관계만을 기준 데이터 세트로 하여 본 발명과의 비교를 진행했다. STP 도구의 수신자 조작 특성 곡선을 생성할 때 사용했던 13개의 기준 데이터 세트 관계와 TN 도구의 수신자 조작 특성 곡선을 생성 할 때 사용한 13개의 기준 데이터 세트 관계는 다른 관계로 구성되어 있다.In addition, the TargetNet (TN) algorithm predicts molecular-target interactions based on the structure-activity relationship (SAR) model. The TN algorithm is also a web-based tool. The reference similarity selection unit 105 extracts predictive target candidates by querying the TN tool with 1,861 FDA-approved drugs, and calculates the numerator-target in descending order based on the probability score provided by the TN tool . Then, the reference similarity degree selection unit 105 generates a receiver operation characteristic curve on the basis of this probability score, and is compared with the present invention as shown in FIG. In the TN tool, like the STP tool, only 13 relationships among the 26 reference data set relationships were predicted. Therefore, comparison with the present invention was made using only 13 relationships as reference data sets. The relationship of the 13 reference data sets used to generate the recipient manipulation characteristic curve of the STP tool and the 13 reference data set relationships used to generate the recipient manipulation characteristic curve of the TN tool have different relationships.

도 11을 참조하면, 본 발명의 수신자 조작 특성 곡선(Metabolite-likeness)과 TargetNet의 수신자 조작 특성 곡선을 나타내고 있다.Referring to FIG. 11, the recipient manipulation characteristic curve of the present invention and the recipient manipulation characteristic curve of TargetNet are shown.

또한, Libdock은 분자 도킹(molecular docking)의 한 알고리즘이다. 기준 유사도 선정부(105)는 Accelrys의 Discovery Studio 3.1(DS) 프로그램을 이용하여 분자 도킹 실험을 진행한다. 기준 유사도 선정부(105)는 1,861개의 FDA 승인 약물들을 이용해 Dihydrofolate reductase(DHFR)와 Thymidylate synthase(TYMS) 두 효소에 대해 도킹 실험을 진행한다. 기준 유사도 선정부(105)는 DHFR과 기질인 엽산과의 X선 결정 구조 복합체 파일을 단백질 데이터 뱅크(PDB ID: 1DHF)에서 수집한다. 또한, 기준 유사도 선정부(105)는 TYMS와 기질인 dUMP과의 X선 결정 구조 복합체 파일을 단백질 데이터 뱅크(PDB ID: 1HVY)에서 수집한다. 기준 유사도 선정부(105)는 단백질 구조 준비 및 최소화, 수소 원자 추가, 물 분자 제거 및 pH 환경 중성화 등은 DS를 이용해 진행한다. 각 단백질의 활성 부위는 기질 결합 부위 주변 반경 10Å으로 정의된다. 기준 유사도 선정부(105)는 DS의 libdock 알고리즘 모듈을 통해 계산된 Libdock 점수를 획득하고, 한 약물의 여러 libdock 점수 중 최댓값만을 고려하여 내림차순으로 정렬한다. 그리고 기준 유사도 선정부(105)는 이러한 libdock 점수를 토대로 수신자 조작 특성 곡선을 생성하여, 본 발명과 비교하면, 도 12와 같다. Libdock 알고리즘에서는 총 26개의 기준 데이터 세트 관계 중 10개의 관계만을 기준 데이터 세트로 하여 본 발명과의 비교를 진행했다.Libdock is also an algorithm of molecular docking. The reference similarity degree selection unit 105 performs the molecular docking experiment using the Accelrys Discovery Studio 3.1 (DS) program. The standard affinity selection unit 105 performs docking experiments on dihydrofolate reductase (DHFR) and thymidylate synthase (TYMS) enzymes using 1,861 FDA-approved drugs. The reference similarity degree selection unit 105 collects the X-ray crystal structure complex file of DHFR and the substrate folate in a protein data bank (PDB ID: 1DHF). In addition, the reference similarity degree selection unit 105 collects an X-ray crystal structure complex file of TYMS and dUMP as a substrate in a protein data bank (PDB ID: 1HVY). The reference similarity selection unit 105 proceeds with DS by preparing and minimizing protein structure, adding hydrogen atoms, removing water molecules, and neutralizing pH environment. The active site of each protein is defined as a radius 10 Å around the substrate binding site. The reference similarity degree selection unit 105 acquires the Libdock score calculated through the DS libdock algorithm module and arranges the libdock scores in descending order of the libdock scores of only one drug. Then, the reference similarity degree selection unit 105 generates a receiver operation characteristic curve based on the libdock score, and is compared with the present invention as shown in FIG. In the Libdock algorithm, only 10 relationships among the 26 reference data set relationships were compared with the present invention.

도 12를 참조하면, 본 발명의 수신자 조작 특성 곡선(Metabolite-likeness)과 Libdock 의 수신자 조작 특성 곡선을 나타내고 있다.Referring to FIG. 12, the recipient manipulation characteristic curve of the present invention and the recipient manipulation characteristic curve of Libdock are shown.

도 10, 11, 12를 참조하면, 각각의 수신자 조작 특성 곡선의 X축은 정확도(Specificity)를 나타내고, Y축은 민감도(Sensitivity)를 나타낸다. Referring to FIGS. 10, 11 and 12, the X axis of each receiver operation characteristic curve represents the specificity, and the Y axis represents the sensitivity.

기준 유사도 선정부(105)는 각 수신자 조작 특성 곡선에 대하여 AUC(Area under the curve)를 계산하여 수신자 조작 특성 곡선의 성능을 비교한다. The reference similarity degree selection unit 105 calculates the area under the curve (AUC) for each receiver operation characteristic curve to compare the performance of the receiver operation characteristic curve.

도 10에서, 본 발명의 AUC는 0.914이고, STP의 AUC는 0.658이다. 도 11에서, 본 발명의 AUC는 0.991이고, TN의 AUC는 0.862이다. 도 12에서, 본 발명의 AUC는 0.989이고, libdock의 AUC는 0.721이다.10, the AUC of the present invention is 0.914, and the AUC of STP is 0.658. 11, the AUC of the present invention is 0.991 and the AUC of TN is 0.862. In Figure 12, the AUC of the present invention is 0.989 and the AUC of libdock is 0.721.

따라서, 본 발명의 AUC는 STP, TN, libdock 각각의 AUC에 비해 모두 더 큰 값을 가진다. 그러므로, 본 발명의 기준 데이터 세트 예측이 STP, TN, libdock보다 우수한 성능을 나타냄을 알 수 있다.Therefore, the AUC of the present invention has a larger value than the AUC of each of STP, TN, and libdock. Therefore, it can be seen that the reference data set prediction of the present invention is superior to STP, TN, and libdock.

다시, 도 8을 참조하면, 기준 유사도 선정부(105)는 26개의 기준 데이터 세트 관계에 대하여 도 13과 같이 수신자 조작 특성 곡선을 생성한다(S405). 그리고 이러한 수신자 조작 특성 곡선에 기초하여 요덴 지표(Youden's Index)를 계산(S407)하여 도 14와 같이 그래프를 생성한다. 요덴 지표는 수학식 1과 같이 계산된다.Referring again to FIG. 8, the reference similarity degree selection unit 105 generates a receiver operation characteristic curve as shown in FIG. 13 for the 26 reference data set relationships (S405). Then, a Wedenen's index is calculated based on the recipient operating characteristic curve (S407), and a graph is generated as shown in FIG. The Yodden index is calculated as shown in Equation (1).

Figure 112017060020213-pat00001
Figure 112017060020213-pat00001

여기서,

Figure 112017060020213-pat00002
는 판단 기준을 x값으로 할때의 판단 결과의 정확도를 의미한다.
Figure 112017060020213-pat00003
는 판단 기준을 x값으로 할때의 판단 결과의 민감도를 의미한다. 이때, x는 기준 데이터 세트의 화학적 구조 유사도 점수를 의미한다. here,
Figure 112017060020213-pat00002
Means the accuracy of the determination result when the determination criterion is set as the x value.
Figure 112017060020213-pat00003
Means the sensitivity of the determination result when the determination criterion is x. Here, x represents the chemical structure similarity score of the reference data set.

기준 유사도 선정부(105)는 도 13의 본 발명의 수신자 조작 특성 곡선에서 기준 데이터 세트의 유사도 점수의 정확도(

Figure 112017060020213-pat00004
) 정보를 포함하는 X축 값과 민감도(
Figure 112017060020213-pat00005
)를 나타내는 Y축 값을 이용하여 요덴 지표를 계산한다.The reference similarity degree selection unit 105 determines the accuracy degree of the similarity score of the reference data set in the recipient operation characteristic curve of the present invention in Fig.
Figure 112017060020213-pat00004
) X axis values and sensitivity (
Figure 112017060020213-pat00005
) Is used to calculate the Yodden index.

기준 유사도 선정부(105)는 위 수학식 1에 의해 계산된 요덴 지표에 기초하여 도 14와 같은 그래프를 생성한다. 도 14를 참조하면, 구조 유사도 점수가 0.654일 때 요덴 지표가 0.979로 가장 높은 값을 나타낸다. 따라서, 기준 유사도 선정부(105)는 0.654를 임계 유사도 점수로 선정한다. 이러한 임계 유사도 점수는 기준 데이터 세트를 가장 잘 분류하는 기준 유사도 점수로 판단된다.The reference similarity degree selection section 105 generates a graph as shown in FIG. 14 based on the Yodden index calculated by the above equation (1). Referring to FIG. 14, when the structural similarity score is 0.654, the Yield index shows the highest value of 0.979. Therefore, the reference similarity degree selection unit 105 selects 0.654 as the threshold similarity score. This critical similarity score is judged to be the reference similarity score that best classifies the reference data set.

도 15는 본 발명의 실시예에 따른 약물 재창출 후보 예측 과정을 나타낸 순서도이고, 도 16은 본 발명의 한 실시예에 따른 대사 길항 물질과 관련된 약물 재창출 후보를 나타낸 표이다. 이때, 도 15 및 도 16은 약물 재창출 후보 예측부(107)의 동작을 나타낸다.FIG. 15 is a flowchart illustrating a drug regeneration candidate predicting process according to an embodiment of the present invention, and FIG. 16 is a table showing drug regeneration candidates related to a metabolic antagonistic substance according to an embodiment of the present invention. At this time, FIGS. 15 and 16 show the operation of the drug regeneration candidate predicting unit 107. FIG.

먼저, 도 15를 참조하면, 약물 재창출 후보 예측부(107)는 질병 연관 단백질과 약물 간의 점수화 행렬에 기준 유사도 점수를 적용(S501)하여, 질병 별로 약물 재창출 후보를 예측한다. Referring to FIG. 15, the drug regeneration candidate predicting unit 107 applies a reference similarity score to a scoring matrix between a disease-related protein and a drug (S501), and predicts drug regeneration candidates for each disease.

약물 재창출 후보 예측부(107)는 기준 유사도 점수보다 높은 유사도 점수가 매핑된 약물들을 추출(S503)하여 그 질병에 대한 약물 재창출 후보로 예측한다(S505). 이때, 기준 유사도 점수보다 유사도 점수가 높을 수록 약물 재창출 가능성이 높은 후보로 예측된다. 다만, 신규 재창출 후보를 예측하는 것이므로, FDA 승인 약물 중 인체 대사 물질에 해당하는 약물은 제외할 수 있다. The medicament regeneration candidate predicting unit 107 extracts medicines to which a similarity score higher than the reference similarity score is mapped (S503), and predicts the medicament regeneration candidate for the disease (S505). In this case, the higher the similarity score than the standard similarity score, the more likely the candidates to regenerate the drug. However, since it is to predict candidates for new regeneration, drugs equivalent to human metabolites among FDA-approved drugs may be excluded.

도 16을 참조하면, 기준 데이터 세트에 포함된 대사 길항 물질과 관련된 총 11개의 질병 연관 효소에 대한 약물 재창출 후보 중 가장 점수가 높은 후보를 나타낸다. 특정 질병 관련 표적 효소(Target Enzyme), 표적 효소가 반응을 매개하는 기질(Substrate), 후보 약물(Candidate drug)과 그 후보 약물의 신규 표적 질병(Indicated Disease), 이들의 구조 유사도 점수(Similarity)를 매핑하여 나타내었다. Referring to FIG. 16, the highest score among the drug regeneration candidates for a total of 11 disease-related enzymes related to the metabolic antagonist contained in the reference data set is shown. The target enzyme, the substrate, the substrate, the candidate drug, the new target disease (Indicated Disease), and the structural similarity score of these target enzymes (Target Enzyme) Respectively.

이때, 표적 효소 XDH의 경우에는 기준 유사도 점수인 0.654 이상의 유사도 점수를 가지는 신규 후보 약물이 없었다.At this time, in the case of the target enzyme XDH, there was no new candidate drug having a similarity score of 0.654 or more as the standard similarity score.

이와 같이, 본 발명의 실시예에 따라 예측한 10가지의 약물 재창출 후보 약물들이 실제로 가능성이 높은 후보 약물인지 알아보기 위해 문헌 조사를 한 결과, 예측된 10개의 약물-질병 중 7개의 약물-질병 관계가 이미 밝혀진 관계라는 것이 문헌 조사를 통해 뒷받침되었다. Thus, in order to find out whether the 10 candidate regenerating drug candidates predicted according to the embodiment of the present invention are actually highly likely candidate drugs, a literature survey was carried out to find out that seven drug-disease out of the 10 predicted drug- It was supported by a literature survey that the relationship was already known.

한편, 전술한 기준 유사도 점수가 선정된 기준 데이터 세트 이외의 특정 질병을 치료할 수 있는 새로운 약물 후보를 예측할 수 있는지 알아보기 위해, 희귀 질병 중의 하나인 고쉐병(Gaucher disease)의 약물 후보를 예측하는 실험을 시도하였다.On the other hand, in order to determine whether the above-described standard similarity scores can predict a new drug candidate that can treat a specific disease other than the selected reference data set, experiments for predicting drug candidates of Gaucher disease, .

고쉐병은 glucocerebrosidase라는 효소의 활성이나 그 양 자체가 부족하여 glucosylceramide가 축적되어 생기는 상염색체 열성 유전 질환이다. 현재는 이 병을 치료하기 위해 효소 교체 치료(Enzyme Replacement Therapy)가 주로 사용되고 있다. 그러나, 연간 3억원에 육박하는 치료비와 여러 밝혀지지 않은 이유로 인해 치료 효과도 천차만별인 상황이다. 게다가, 효소 교체 치료가 불가능할 경우, 기질 제거 치료(Substrate Reduction Therapy)를 진행하는데, 현재 이를 위해 FDA 승인된 약물은 miglustat, eliglustat 단 2가지뿐이다. 이마저도 치료 효과가 없다면 더 이상의 치료 선택권은 없는 실정이다. Ghoshha disease is an autosomal recessive hereditary disease caused by the accumulation of glucosylceramide due to lack of activity of glucocerebrosidase enzyme or its quantity. Currently, Enzyme Replacement Therapy is mainly used to treat this disease. However, the treatment cost is close to 300 million won per year, and various unexplained reasons have caused the treatment effect to vary widely. In addition, when enzyme replacement therapy is not possible, Substrate Reduction Therapy is underway, and there are currently only two FDA-approved drugs, miglustat and eliglustat. If there is no treatment effect, there is no treatment option.

본 발명의 실험예에서는, 고쉐병을 치료하기 위한 약물 재창출 후보를 예측하기 위해 고쉐병과 연관된 효소로서, Glucocerebrosidase, Ceramide glucosyltransferase 등과 기질 관계에 있는 대사 물질을 이용했다.In the experimental example of the present invention, a metabolite substance having a substrate relationship with Glucocerebrosidase, Ceramide glucosyltransferase and the like was used as an enzyme related to Gossypetic Disease in order to predict a drug regeneration candidate for treatment of a Gochae disease.

도 17은 본 발명의 한 실시예에 따른 고쉐병과 연관된 효소 및 대사물질을 포함한 대사 경로의 단편을 보여준다. Figure 17 shows a fragment of the metabolic pathway including enzymes and metabolites associated with Gossypollosis in accordance with one embodiment of the present invention.

도 17을 참고하면, Lactosylceramide는 Ceramide-Glucose-Galactose 구조로 이루어진다. Lactosylceramide는 Beta-galactosidase의 효소 작용으로 Glucosylceramide로 변화하며, 이때, Galactose라는 대사물질을 발생시킨다. Referring to FIG. 17, Lactosylceramide has a Ceramide-Glucose-Galactose structure. Lactosylceramide is converted to glucosylceramide by the action of beta-galactosidase, which produces a metabolite called galactose.

Glucosylceramide는 Ceramide-Glucose 구조로 이루어지며, Glucocerebrosidase의 효소 작용으로 Glucose라는 대사물질을 발생시킨다. Glucocerebrosidase 효소는 고쉐병과 직접적으로 연관된다.Glucosylceramide is composed of Ceramide-Glucose structure. Glucocerebrosidase produces the metabolite called Glucose. Glucocerebrosidase enzymes are directly linked to Gossypia.

Galactosylceramide는 Ceramide-Galactose 구조로 이루어지며, Galactosylceramidase의 효소 작용으로 Ceramide로 변화하며, 이때, Galactose라는 대사물질을 발생시킨다. Ceramide는 Ceramide glucosyltransferase의 효소 작용으로 Glucosylceramide로 변화하고, 이때, Glucose라는 대사물질을 발생시킨다. 기존의 고쉐병 약물인 miglustat은 Ceramide glucosyltransferase 효소의 활성을 방해함으로써, Ceramide가 Glucosylceramide로 변화하는 것을 막는다. Glucocerebrosidase 효소의 비활성으로 인한 Glucosylceramide의 축적이 고쉐병의 원인이므로, Ceramide가 Glucosylceramide로 변화하는 것을 막음으로써, 고쉐병을 치료할 수 있다. Galactosylceramide is composed of Ceramide-Galactose structure, which is transformed into Ceramide by the action of Galactosylceramidase, which generates a metabolite called Galactose. Ceramide is converted to glucosylceramide by enzymatic action of ceramide glucosyltransferase, which generates a metabolite called Glucose. Miglustat, a traditional ghosharma drug, blocks the activity of ceramide glucosyltransferase enzymes and thus prevents the conversion of ceramide to glucosylceramide. Because accumulation of glucosylceramide due to the inactivity of glucocerebrosidase enzyme is the cause of cholesteatoma, it can treat choleric disease by preventing the change of ceramide to glucosylceramide.

따라서, 고쉐병과 연관된 효소 단백질은 Glucocerebrosidase와 Ceramide glucosyltransferase이고, 고쉐병과 연관된 대사물질은 Glucosylceramide와 Ceramide이므로, 기존에 약물들을 Glucosylceramide와 Ceramide와의 화학적 구조를 비교하여, 산출한 구조 유사도 점수를 토대로 전술한 방법과 같이 약물 재창출 후보를 예측하였다. 이때, 기존의 고쉐병 약물인 miglustat을 제외하고 총36개의 약물 재창출 후보를 얻을 수 있었다.Therefore, the enzyme proteins associated with Gossypium are Glucocerebrosidase and Ceramide glucosyltransferase. Glucosylceramide and Ceramide are the metabolites associated with Gossyphei. Therefore, the chemical structure of the drugs with Glucosylceramide and Ceramide is compared and the method Likewise, we predicted drug candidates. At this time, a total of 36 drug regeneration candidates were obtained, except miglustat, which is a conventional Goshhee drug.

도 18은 본 발명의 한 실시예에 따라 문헌 조사를 통해 근거가 뒷받침 된 후보들의 목록을 나타낸 표로서, 고쉐병 치료에 사용될 수 있을 것으로 예측된 약물 후보 중에서 문헌 조사를 통해 근거가 뒷받침된 후보들의 목록을 나타낸다.Figure 18 is a list of candidates supported by evidence through literature review in accordance with one embodiment of the present invention. Among drug candidates predicted to be used in the treatment of Gochishha disease, candidates supported by the literature survey Lists.

도 18을 참조하면, 약물 재창출 후보로 예측된 총 36개의 새로운 고쉐병 치료 약물 후보 중에서 절반은 항생제(Aminoglycosides) 계열임을 알 수 있다. 나머지 절반은 항고혈압제(Anti-hypertension), 항면역제(Immunosuppressant), 항당뇨제(Anti-diabetic)등으로 분류되었다. Referring to FIG. 18, it can be seen that half of the total of 36 new candidate drugs for remedy of GCS disease are antibiotics (Aminoglycosides). The other half were classified as anti-hypertension, immunosuppressant, and anti-diabetic.

이러한 약물 재창출 후보들에 대한 효능을 검증하기 위해 문헌 조사를 진행하였다. 약물 재창출 후보 중에서 대부분의 항생제들은 Aminoglycoside와 관련된 Aminocyclitol 계열 항생제였다. 최근 Aminocyclitol 계열 유도체들이 고쉐병에 효과가 있다는 보고가 있었다. We conducted a literature review to verify the efficacy of these drug candidates. Most antibiotics among amendment candidates were aminocyclitol - related antibiotics related to aminoglycoside. Recently, aminocyclitol derivatives have been reported to be effective against chorioallans.

그리고 현재 고쉐병 치료에 사용되고 있는 miglustat도 원래는 Nojirimycin 계열의 항생제로서, 처음 개발되었던 약물이다. Miglustat, which is currently used in the treatment of ghoshha disease, was originally developed as a Nojirimycin family of antibiotics.

또한, 최근 항고혈압제, 항면역제 계열이 고쉐병 치료에 효과가 있을 수도 있다는 보고가 있었다. Recently, there have been reports that antihypertensive agents and anti-immunity agents may be effective in the treatment of Gha-Shi disease.

이처럼, 약물 재창출 후보들이 고쉐병의 신규 약물로서 가능성이 높은 후보들이라는 것을 알 수 있다. 따라서, 질병 연관 단백질과 상호작용하는 인체 대사 물질의 유사도를 이용해 약물 재창출 후보를 제시할 수 있다는 가능성을 보여준다. As such, it can be seen that candidates for drug regeneration are likely candidates for the new drug of Kocher's disease. Thus, it shows the possibility of suggesting drug regeneration candidates using the similarity of human metabolites interacting with disease-related proteins.

특히, 고쉐병과 같이, 효소 기능 장애와 관련된 유전적인 희귀 질병의 신규 약물을 재창출하는 데에 큰 장점이 있을 것으로 보이므로, 본 발명의 실시예는 인체 대사 물질 유사 약물 개발을 포함하여 제약 산업 전반에 도움이 되는 유용한 도구가 될 것으로 기대된다.In particular, it appears that there will be great advantages in regenerating new drugs of genetic rare diseases associated with enzymatic dysfunction, such as Gossypian, so that the embodiments of the present invention can be used in the pharmaceutical industry as a whole, including the development of human metabolite- It is expected to be a helpful tool to help.

한편, 도 19는 본 발명의 또 다른 실시예에 따른 약물 재창출 후보 예측 시스템의 하드웨어 구성을 나타낸 블록도이다.Meanwhile, FIG. 19 is a block diagram illustrating a hardware configuration of a drug regeneration candidate prediction system according to another embodiment of the present invention.

도 19를 참조하면, 약물 재창출 후보 예측 시스템(1000)은 적어도 하나의 저장부(1001), 적어도 하나의 출력부(1003), 적어도 하나의 입력부(1005), 적어도 하나의 통신부(1007) 및 적어도 하나의 프로세서(1009)를 포함하는 하드웨어로 구성된다. 약물 재창출 후보 예측 시스템(1000)은 하드웨어와 결합하여 동작하는 운영체제, 미들웨어, 프로그램 등 각종 소프트웨어를 포함한다. 약물 재창출 후보 예측 시스템(1000)의 하드웨어와 소프트웨어는 본 발명을 실행할 수 있는 구성과 성능을 가진다.19, the drug regeneration candidate prediction system 1000 includes at least one storage unit 1001, at least one output unit 1003, at least one input unit 1005, at least one communication unit 1007, And at least one processor (1009). The medicament regeneration candidate prediction system 1000 includes various software such as an operating system, middleware, and programs that operate in combination with hardware. The hardware and software of the drug regeneration candidate prediction system 1000 have the configuration and the capability to execute the present invention.

저장부(1001)는 도 1 ~ 도 18에서 설명한 구성 및 방법을 구현하기 위한 프로그램을 저장한다. 저장부(1001)는 컴퓨터와 같은 장치에 의해 판독 가능한 형태의 저장 또는 전달하는 임의의 매체를 포함하고, 예를 들면 ROM(read only memory), RAM(random access memory), 자기디스크 저장 매체, 광저장 매체, 플래쉬 메모리 장치 및 기타 전기적, 광학적 또는 음향적 신호 전달 매체 등을 포함할 수 있다. 저장부(1001)에 저장된 프로그램은 도 1 ~ 도 18에서 설명한 약물 재창출 후보 예측 시스템의 동작을 구현한 명령어들(instructions)를 포함한다. 프로세서(1009)는 프로그램을 로딩하여 본 발명에서 설명한 도 1 ~ 도 19에서 설명한 약물 재창출 후보 예측 시스템(1000)의 동작을 수행한다.The storage unit 1001 stores a program for implementing the configuration and method described with reference to FIG. 1 to FIG. The storage unit 1001 includes any medium that stores or transmits data in a form readable by a device such as a computer. The storage unit 1001 may include a read only memory (ROM), a random access memory (RAM) Storage media, flash memory devices, and other electrical, optical, or acoustic signal transmission media, and the like. The program stored in the storage unit 1001 includes instructions that implement the operation of the drug regeneration candidate prediction system described with reference to FIGS. The processor 1009 loads the program and performs operations of the drug regeneration candidate prediction system 1000 described in FIGS. 1 to 19 described in the present invention.

출력부(1003)는 프로세서(1009)의 동작에 따른 정보를 출력한다. 이때, 화면 상에 출력할 수도 있고, 인쇄물로 출력할 수도 있고, 사용자가 인지할 수 있는 다양한 방식으로 출력할 수 있다. 입력부(1005)는 구축하는데 필요한 정보를 인터넷 상에서 수집하거나 또는 사용자로부터 입력받아 프로세서(1009)로 출력한다.The output unit 1003 outputs information according to the operation of the processor 1009. At this time, it can be outputted on the screen, printed matter, or output in various ways which can be recognized by the user. The input unit 1005 collects information necessary for construction on the Internet or receives it from the user and outputs it to the processor 1009. [

통신부(1007)는 통신망(800)에 연결되어 데이터 송수신 기능을 수행한다. The communication unit 1007 is connected to the communication network 800 and performs a data transmission / reception function.

이때, 각 구성(1001, 1003, 1005, 1007)은 하나의 프로세서(1009) 내에 탑재된 형태로 도시하였으나, 이는 각 구성(1001, 1003, 1005, 1007)이 프로세서 기반으로 동작하는 것을 의미하는 것으로, 하나의 프로세서(1009)로 구현될 수도 있지만, 이더넷이나 네트워크를 통해 서로 연결된 별개의 서버로 구현될 수도 있다.In this case, each of the components 1001, 1003, 1005, and 1007 is shown mounted in one processor 1009, which means that the components 1001, 1003, 1005, and 1007 operate on a processor basis , A single processor 1009, or may be implemented as a separate server connected to each other via Ethernet or a network.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.The embodiments of the present invention described above are not implemented only by the apparatus and method, but may be implemented through a program for realizing the function corresponding to the configuration of the embodiment of the present invention or a recording medium on which the program is recorded.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, It belongs to the scope of right.

Claims (15)

적어도 하나의 프로세서에 의해 동작하는 시스템이 약물 재창출 후보를 예측하는 방법으로서,
질병 발생과 연관된 질병 연관 단백질 정보, 단백질과 화합물의 상호작용 정보 및 인체 대사물질 정보를 수집하는 단계,
수집한 정보에 기초하여 질병 연관 단백질과 인체 대사물질 간의 상호작용 관계 정보를 추출하는 단계,
상기 약물의 구조 및 상기 인체 대사물질의 구조 각각의 화학적 지문 간의 유사도 점수를 토대로 상기 약물과 상기 인체 대사물질의 유사도 행렬을 생성하는 단계,
상기 상호작용 관계 정보를 기초로, 상기 유사도 행렬에서 상기 인체 대사물질을 상기 질병 연관 단백질로 치환한 점수화 행렬을 생성하는 단계, 그리고
상기 점수화 행렬의 약물들 중에서 기준 유사도 점수보다 높은 유사도 점수를 갖는 약물을 추출하고, 추출한 약물을 재창출 후보로 예측하는 단계
를 포함하는, 약물 재창출 후보 예측 방법.
WHAT IS CLAIMED IS: 1. A method for predicting drug regeneration candidates by a system operating by at least one processor,
Collecting information on disease-related proteins associated with disease outbreaks, information on interaction between proteins and compounds, and human metabolite information,
Extracting interaction relationship information between the disease-associated protein and the human metabolite based on the collected information,
Generating a similarity matrix of the drug and the human metabolite based on the similarity score between the chemical fingerprint of each structure of the drug and the structure of the human metabolite,
Generating a scoring matrix by substituting the disease metabolism material with the disease-associated protein in the similarity matrix based on the interaction relationship information; and
Extracting a drug having a similarity score higher than the reference similarity score among the drugs of the scoring matrix, and predicting the extracted drug as a re-creation candidate
A candidate drug candidate candidate prediction method.
삭제delete 제1항에서,
상기 유사도 행렬은,
히트맵 함수를 이용하여 계층적으로 클러스터링되고, 각각의 화학적 지문 간의 유사도 점수가 구간 별로 서로 다른 색상으로 표시되는, 약물 재창출 후보 예측 방법.
The method of claim 1,
Wherein the similarity degree matrix includes:
A method of predicting a drug re-creation candidate, the method comprising: hierarchically clustering using a heat map function and displaying similarity scores between respective chemical fingerprints in different colors for each segment.
제1항에서,
상기 점수화 행렬을 생성하는 단계와 상기 예측하는 단계 사이에,
공개 데이터베이스로부터 수집한 약물 표적 단백질 정보와, 상기 질병 연관 단백질과 인체 대사물질 간의 상호작용 관계 정보를 이용하여, 약물 표적 단백질, 인체 대사물질 및 약물간의 관계 정보를 포함하는 기준 데이터 세트를 선정하는 단계,
상기 기준 데이터 세트에 포함된 인체 대사물질 및 약물의 화학적 지문 간의 유사도 점수에 기초하여 수신자 조작 특성 곡선(Receiver Operating Characteristic curve)을 생성하는 단계, 그리고
상기 수신자 조작 특정 곡선을 이용하여 계산된 요덴 지표(Youden's Index)가 가장 높은 유사도 점수를 추출하여, 상기 기준 유사도 점수로 선정하는 단계
를 더 포함하는, 약물 재창출 후보 예측 방법.
The method of claim 1,
Between the step of generating the scoring matrix and the step of predicting,
Selecting a reference data set including relationship information between a drug target protein, a human metabolite, and a drug using drug target protein information collected from a public database and interaction relationship information between the disease-associated protein and a human metabolite ,
Generating a Receiver Operating Characteristic curve based on a score of similarity between the chemical fingerprint of the human metabolite and the drug contained in the reference data set; and
Extracting the similarity score having the highest Yoden index (Youden's Index) calculated using the receiver operation specific curve, and selecting the similarity score as the reference similarity score
Further comprising the step of:
제4항에서,
상기 기준 데이터 세트를 선정하는 단계 이후,
상기 기준 데이터 세트에 포함된 인체 대사물질 및 약물의 화학적 지문 간의 유사도 점수에 기초하여 생성된 수신자 조작 특성 곡선과, 화합물의 단백질 표적 상호작용을 예측하는 적어도 하나의 예측 알고리즘을 이용하여 산출된 예측 값에 기초하여 생성된 수신자 조작 특성 곡선을 상호 비교하여, 상기 기준 데이터 세트의 예측 정확도를 검증하는 단계
를 더 포함하는, 약물 재창출 후보 예측 방법.
5. The method of claim 4,
After selecting the reference data set,
A recipient manipulation characteristic curve generated based on the score of similarity between the chemical fingerprints of the human metabolite and the drug contained in the reference data set and the predicted value calculated using at least one prediction algorithm for predicting the protein target interaction of the compound Comparing the recipient operating characteristic curves generated based on the recipient operating characteristic curves to verify the prediction accuracy of the reference data set
Further comprising the step of:
제1항에서,
상기 추출하는 단계는,
상기 질병 연관 단백질 정보와, 상기 인체 대사물질 정보의 상호작용 관계 정보에 대해 상호작용 관계수를 토대로 유의성 평가를 수행하여, 통계적으로 유의미하다고 판단된 상호작용 관계 정보를 추출하는, 약물 재창출 후보 예측 방법.
The method of claim 1,
Wherein the extracting comprises:
Related protein information and the metabolism information of the human body, a significance evaluation is performed on the basis of the number of interaction relations with respect to the information on interaction relation between the disease-related protein information and the metabolism information of the human body, thereby extracting the interaction relationship information determined to be statistically significant. Way.
제6항에서,
상기 추출하는 단계는,
적어도 둘 이상 서로 매칭된 상기 질병 연관 단백질 정보와, 상기 인체 대사물질 정보의 상호작용 관계 정보 중에서 상기 유의성 평가에 따른 유의 확률(P value)이 임계 조건을 충족하고, 상기 유의 확률에 따른 우선순위가 최우선인 상호작용 관계 정보를 추출하며,
추출된 상호작용 관계 정보는,
상기 질병 연관 단백질과 상기 인체 대사물질이 일대일로 매핑되는, 약물 재창출 후보 예측 방법.
The method of claim 6,
Wherein the extracting comprises:
(P value) according to the significance evaluation satisfies the threshold condition among the information of the interaction between the disease-related protein information and the human metabolism information at least two of which match each other, and the priority according to the significance probability Extracting the highest priority interaction relationship information,
The extracted interaction relationship information includes,
Wherein the disease-associated protein and the human metabolite are mapped on a one-to-one basis.
적어도 하나의 프로세서에 의해 동작하는 시스템이 약물 재창출 후보를 예측하는 방법으로서,
이미 알려진 약물 및 인체 대사물질 각각의 화학적 구조의 화학적 지문을 이용하여 상기 약물 및 상기 인체 대사물질 간의 화학적 구조의 유사도 점수를 계산하고, 상기 유사도 점수를 기초로 화학적 구조가 유사한 약물과 인체 대사물질을 매칭하는 단계,
상기 인체 대사물질을 상기 인체 대사물질과 상호작용 관계가 있는 질병 연관 단백질로 치환하는 단계, 그리고
상기 유사도 점수가 기준 유사도 점수보다 높은 약물 및 상기 약물에 매칭된 질병 연관 단백질을 추출하여, 상기 추출한 약물을 상기 추출한 질병 연관 단백질의 약물 재창출 후보로 예측하는 단계
를 포함하는, 약물 재창출 후보 예측 방법.
WHAT IS CLAIMED IS: 1. A method for predicting drug regeneration candidates by a system operating by at least one processor,
A similarity score of the chemical structure between the drug and the human metabolite is calculated using a chemical fingerprint of each chemical structure of each known drug and human metabolite and a drug having similar chemical structure and a human metabolite Matching step,
Replacing the human metabolite with a disease-associated protein that interacts with the human metabolite, and
Related protein having a similarity score higher than the reference similarity score and the disease-associated protein matched to the drug, and predicting the extracted drug as a drug regeneration candidate of the extracted disease-associated protein
A candidate drug candidate candidate prediction method.
삭제delete 제8항에서,
상기 기준 유사도 점수는,
약물 표적 단백질, 인체 대사물질 및 약물간의 관계 정보를 포함하는 기준 데이터 세트의 화학적 지문 간의 유사도 점수에 기초한 수신자 조작 특성 곡선(Receiver Operating Characteristic curve) 및 요덴 지표(Youden's Index)를 이용하여 선정되는, 약물 재창출 후보 예측 방법.
9. The method of claim 8,
The score of the reference similarity score
A drug selected using a Receiver Operating Characteristic curve and Youden's Index based on the score of similarity between chemical fingerprints of the reference data set including the relationship between the drug target protein, the human metabolite and the drug, A method for predicting re - creation candidates.
제8항에서,
상기 치환하는 단계는,
적어도 둘 이상 서로 매칭된 질병 연관 단백질과, 인체 대사물질의 상호작용 관계 정보 중에서 임계 조건을 충족하는 유의 확률(P value)의 우선순위가 최우선인 상호작용 관계 정보를 이용하는, 약물 재창출 후보 예측 방법.
9. The method of claim 8,
Wherein the replacing comprises:
A method for predicting drug re-creation candidates using interaction-related information having a priority of a significance value (P value) satisfying a critical condition among the information on the interaction relation of human metabolism with at least two disease-related proteins matched with each other .
약물 재창출 후보를 예측하는 시스템으로서,
약물 재창출 후보를 예측하는 프로그램을 저장하는 메모리, 그리고
상기 프로그램을 실행하는 적어도 하나의 프로세서를 포함하고,
상기 프로그램은,
적어도 하나의 공개 데이터베이스로부터 수집한 질병 발생과 연관된 질병 연관 단백질 정보, 단백질과 화합물의 상호작용 정보 및 인체 대사물질 정보에 기초하여 질병 연관 단백질과 인체 대사물질 간의 상호작용 관계 정보를 추출하고,
이미 알려진 약물 및 상기 인체 대사물질 각각의 구조의 화학적 지문 간의 유사도 점수를 기초로 화학적 구조가 유사한 약물과 인체 대사물질을 매칭하며, 상기 약물 별로 매칭된 인체 대사물질을 상기 상호작용 관계 정보에 기초하여 상기 질병 연관 단백질로 치환하고,
상기 유사도 점수가 기준 유사도 점수보다 높은 약물 및 질병 연관 단백질을 추출하여, 상기 추출한 약물을 상기 추출한 단백질의 연관 질병의 약물 재창출 후보로 예측하는 명령어들(Instructions)을 포함하는, 약물 재창출 후보 예측 시스템.
A system for predicting drug re-creation candidates,
A memory for storing a program for predicting drug regeneration candidates, and
And at least one processor for executing the program,
The program includes:
Extracting interaction relationship information between a disease-associated protein and a human metabolite based on disease-related protein information associated with disease occurrence collected from at least one public database, information on interaction between a protein and a compound, and human metabolite information,
The method comprising: matching a drug and a human metabolite having a chemical structure similar to each other based on a similarity score between a known drug and a chemical fingerprint of a structure of each of the human metabolites; Said disease-associated protein,
And instructions for extracting a drug and disease-related protein having a degree of similarity score higher than a reference similarity score and predicting the extracted drug as a drug regeneration candidate of a related disease of the extracted protein, system.
제12항에서,
상기 프로그램은,
상기 질병 연관 단백질 정보와, 상기 인체 대사물질 정보의 상호작용 관계 정보에 대해 상호작용 관계수를 토대로 유의성 평가를 수행하여, 유의 확률(P value)의 우선순위를 기반으로 통계적으로 유의미하다고 판단된 상호작용 관계 정보를 추출하고,
상기 약물과 상기 질병 연관 단백질간의 유사도 점수로 구성된 점수화 행렬을 생성하며,
상기 점수화 행렬을 이용하여 상기 유사도 점수가 상기 기준 유사도 점수보다 높은 약물 및 질병 연관 단백질을 상기 약물 재창출 후보로 예측하고, 예측한 정보를 화면에 출력하는 명령어들을 포함하는, 약물 재창출 후보 예측 시스템.
The method of claim 12,
The program includes:
Related protein information and the interaction relation information of the human metabolite information on the basis of the number of interaction relations and determine the statistical significance based on the priority of the significance value (P value) Extracting the action relation information,
Generating a scoring matrix consisting of scores of similarity between the drug and the disease-associated protein,
And a command for predicting the drug and disease-related protein having the similarity score higher than the reference similarity score using the scoring matrix to the drug regeneration candidate and outputting the predicted information to a screen, .
제13항에서,
상기 프로그램은,
공개 데이터베이스로부터 수집한 약물 표적 단백질 정보와, 상기 상호작용 관계 정보를 이용하여 선정한 기준 데이터 세트에 포함된 약물 표적 단백질, 인체 대사물질 및 약물간의 화학적 구조의 화학적 지문 간의 유사도 점수에 기초하여 수신자 조작 특성 곡선(Receiver Operating Characteristic curve)을 생성하고,
상기 수신자 조작 특성 곡선에 따른 요덴 지표(Youden's Index)를 계산하여, 상기 요덴 지표가 가장 높은 유사도 점수를 상기 기준 유사도 점수로 선정하는 명령어들을 포함하는, 약물 재창출 후보 예측 시스템.
The method of claim 13,
The program includes:
Based on the drug target protein information collected from the public database and the similarity score between the chemical fingerprint of the chemical structure of the drug target protein, the human metabolite and the drug contained in the selected reference data set using the interaction relationship information, A curve (Receiver Operating Characteristic curve) is generated,
Calculating a YODEN index according to the receiver operation characteristic curve and selecting the similarity score having the highest YODEN index as the reference similarity score.
제14항에서,
상기 예측한 약물 및 질병 연관 단백질 간의 관계 정보를 포함한 약물 재창출 후보 정보를 저장하는 약물 재창출 후보 데이터베이스, 그리고
상기 약물 재창출 후보 데이터베이스와 연결되고, 통신망을 통해 접속된 단말에게 상기 약물 재창출 후보 데이터베이스로의 접근을 관리하는 사용자 인터페이스부
를 더 포함하는, 약물 재창출 후보 예측 시스템.
The method of claim 14,
A drug regeneration candidate database storing drug regeneration candidate information including the predicted drug and disease-related protein relationship information, and
A user interface unit connected to the drug regeneration candidate database and managing access to the drug regeneration candidate database to a terminal connected through a communication network,
Further comprising the step of:
KR1020170079165A 2017-06-22 2017-06-22 Method and system for predicting drug repositioning candidate based on similarity between drug and metabolite KR101963331B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170079165A KR101963331B1 (en) 2017-06-22 2017-06-22 Method and system for predicting drug repositioning candidate based on similarity between drug and metabolite

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170079165A KR101963331B1 (en) 2017-06-22 2017-06-22 Method and system for predicting drug repositioning candidate based on similarity between drug and metabolite

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020190028220A Division KR102035162B1 (en) 2019-03-12 2019-03-12 Method for predicting drug candidate for diseases by using human metabolite specific for the disease target metabolizing enzyme

Publications (2)

Publication Number Publication Date
KR20190000166A KR20190000166A (en) 2019-01-02
KR101963331B1 true KR101963331B1 (en) 2019-03-28

Family

ID=65021546

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170079165A KR101963331B1 (en) 2017-06-22 2017-06-22 Method and system for predicting drug repositioning candidate based on similarity between drug and metabolite

Country Status (1)

Country Link
KR (1) KR101963331B1 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508612B (en) * 2020-04-08 2023-09-22 哈尔滨工业大学 Metabolite prediction method based on disease and literature association
CN111785320B (en) * 2020-06-28 2024-02-06 西安电子科技大学 Drug target interaction prediction method based on multi-layer network representation learning
CN111951951B (en) * 2020-07-14 2023-06-23 西安电子科技大学 Disease module detection method and system based on connected significance
CN112216353B (en) * 2020-11-02 2024-04-02 长沙理工大学 Method and apparatus for predicting drug-target interaction relationship
KR102454641B1 (en) * 2021-04-12 2022-10-14 주식회사 온코크로스 Method for predicting combination information of drug and apparatus thereof
CN116052873B (en) * 2023-01-18 2024-01-26 齐齐哈尔大学 Disease-metabolite association prediction system based on weight k-nearest neighbor
CN116759015B (en) * 2023-08-21 2023-11-24 中国人民解放军总医院 Antiviral drug screening method and system based on hypergraph matrix tri-decomposition

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996018745A1 (en) 1994-12-16 1996-06-20 Smithkline Beecham Corporation Conserved yeast nucleic acid sequences
US20170154151A1 (en) 2014-05-28 2017-06-01 Vaiomer Method of identification of a relationship between biological elements

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101292843B1 (en) * 2011-12-09 2013-08-02 양산덕 Apparatus and method of generating the associated disease information on drug
KR102361615B1 (en) * 2014-07-17 2022-02-11 한국과학기술원 Method for drug repositioning based on drug responding gene expression features

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996018745A1 (en) 1994-12-16 1996-06-20 Smithkline Beecham Corporation Conserved yeast nucleic acid sequences
US20170154151A1 (en) 2014-05-28 2017-06-01 Vaiomer Method of identification of a relationship between biological elements

Also Published As

Publication number Publication date
KR20190000166A (en) 2019-01-02

Similar Documents

Publication Publication Date Title
KR101963331B1 (en) Method and system for predicting drug repositioning candidate based on similarity between drug and metabolite
Lotfi Shahreza et al. A review of network-based approaches to drug repositioning
Shameer et al. Systematic analyses of drugs and disease indications in RepurposeDB reveal pharmacological, biological and epidemiological factors influencing drug repositioning
Dudley et al. Exploiting drug–disease relationships for computational drug repositioning
Muegge et al. An overview of molecular fingerprint similarity search in virtual screening
Yang et al. A pharmacophore‐based evolutionary approach for screening selective estrogen receptor modulators
Haupt et al. Old friends in new guise: repositioning of known drugs with structural bioinformatics
Qing et al. Pharmacophore modeling: advances, limitations, and current utility in drug discovery
Lee et al. BSP‐SLIM: A blind low‐resolution ligand‐protein docking approach using predicted protein structures
Gahbauer et al. Iterative computational design and crystallographic screening identifies potent inhibitors targeting the Nsp3 macrodomain of SARS-CoV-2
Stahl et al. Bayesian inference analyses of the polygenic architecture of rheumatoid arthritis
Li et al. Predicting protein-ligand interactions based on bow-pharmacological space and Bayesian additive regression trees
Futschik et al. Comparison of human protein–protein interaction maps
CN104781458B (en) Ratify prediction meanss, approval Forecasting Methodology and computer readable recording medium storing program for performing
AU2011238099A1 (en) Computer based system for predicting treatment outcomes
Zhao et al. An efficient method for protein function annotation based on multilayer protein networks
Wang et al. Review and comparative assessment of similarity-based methods for prediction of drug–protein interactions in the druggable human proteome
KR101995511B1 (en) Method and system for predicting new drug lead compound candidate by applying association rules between pharmacologically active similas compounds and their fragments
CN110310703B (en) Medicine prediction method and device and computer equipment
Kozlovskii et al. Protein–peptide binding site detection using 3D convolutional neural networks
Stumpfe et al. Frequency of occurrence and potency range distribution of activity cliffs in bioactive compounds
Gilad et al. A reliable computational workflow for the selection of optimal screening libraries
KR102035162B1 (en) Method for predicting drug candidate for diseases by using human metabolite specific for the disease target metabolizing enzyme
Neves et al. Modern approaches to accelerate discovery of new antischistosomal drugs
Athar et al. First protein drug target’s appraisal of lead-likeness descriptors to unfold the intervening chemical space

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent