KR102228552B1 - Method of predicting multiple targets of drug utilizing random forest QSAR models - Google Patents

Method of predicting multiple targets of drug utilizing random forest QSAR models Download PDF

Info

Publication number
KR102228552B1
KR102228552B1 KR1020180109415A KR20180109415A KR102228552B1 KR 102228552 B1 KR102228552 B1 KR 102228552B1 KR 1020180109415 A KR1020180109415 A KR 1020180109415A KR 20180109415 A KR20180109415 A KR 20180109415A KR 102228552 B1 KR102228552 B1 KR 102228552B1
Authority
KR
South Korea
Prior art keywords
target
drug
targets
ligands
random forest
Prior art date
Application number
KR1020180109415A
Other languages
Korean (ko)
Other versions
KR20200030769A (en
Inventor
김동섭
이경열
이민호
Original Assignee
한국과학기술원
가톨릭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원, 가톨릭대학교 산학협력단 filed Critical 한국과학기술원
Priority to KR1020180109415A priority Critical patent/KR102228552B1/en
Publication of KR20200030769A publication Critical patent/KR20200030769A/en
Application granted granted Critical
Publication of KR102228552B1 publication Critical patent/KR102228552B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

인체에 존재하는 다수의 표적들에 대한 약물의 결합을 예측하는 방법이 개시된다. 표적들과 결합하는 약물의 구조 정보를 기계 학습하여 각 표적 별로 독립적인 랜덤 포레스트 예측 모델을 생성한 후, 그 예측 모델에 예측대상 약물의 구조 정보를 입력한다. 각 표적 별 랜덤 포레스트 예측모델에서, 표적들 각각에 대한 구조 정보가 입력된 예측대상 약물의 결합 가능성을 각 표적별 표적 점수로 생성하고, 각 표적별 표적 점수를 평가 데이터의 점수를 기반으로 약물과 표적이 상호작용할 확률인 약물-표적 결합 확률로 전환한다. 그 약물-표적 결합 확률에 기초하여 소정의 결합 확률값 이상을 갖는 표적들을 선별하여 상기 예측대상 약물의 예상 표적 리스트로 반환한다. 이런 알고리즘을 약물 표적 예측 서버에 구현하여, 사용자가 클라이언트 단말기를 통해 예측대상 약물의 최상위 표적을 검색할 수 있다. A method of predicting the binding of a drug to a plurality of targets present in the human body is disclosed. After generating an independent random forest prediction model for each target by machine learning the structure information of a drug that binds to the targets, the structure information of the drug to be predicted is input to the prediction model. In the random forest prediction model for each target, the possibility of binding of the predicted drug, in which the structural information for each of the targets is input, is generated as a target score for each target, and the target score for each target is calculated with the drug based on the score of the evaluation data. It converts to a drug-target binding probability, which is the probability that the target will interact. Based on the drug-target binding probability, targets having a predetermined binding probability value or more are selected and returned to the predicted target list of the predicted drug. By implementing such an algorithm in the drug target prediction server, the user can search for the highest target of the drug to be predicted through the client terminal.

Description

랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법 {Method of predicting multiple targets of drug utilizing random forest QSAR models}{Method of predicting multiple targets of drug utilizing random forest QSAR models}

본 발명은 약물의 표적(target)을 예측하는 기술 분야에 관한 것으로, 보다 상세하게는 표적 식별을 위해 최적화 된 매개 변수를 갖는 랜덤 포레스트 구조-활성 정량적 관계 모델(random forest quantitative structure-activity relationship model)을 활용한 약물의 다중 표적 예측 방법에 관한 것이다.The present invention relates to the field of technology for predicting a target of a drug, and more particularly, a random forest quantitative structure-activity relationship model having parameters optimized for target identification. It relates to a method for predicting multiple targets of drugs using

인체는 다양한 생물학적인 물질들(예: 단백질, RNA, DNA 등)로 이루어져 있고, 이 물질들의 상호작용을 통해 대사활동을 수행하고 생명을 유지한다. 인체가 질병에 걸리면 인체 내에서는 특정 물질(들)의 비정상적인 활성 혹은 비활성이 관측된다. 이는 질병의 원인이거나 혹은 결과로서, 질병의 다양한 증상을 일으킬 수 있다. 따라서 사람들은 인체 내의 특정 물질을 표적으로 하는 다양한 약물을 개발해 왔으며, 이를 통해 병을 치료하거나 증상을 완화하기도 한다. The human body is made up of various biological substances (eg, protein, RNA, DNA, etc.), and through the interaction of these substances, it performs metabolic activities and sustains life. When the human body suffers from a disease, abnormal activity or inactivity of certain substance(s) is observed within the human body. It is the cause or result of the disease, and can cause various symptoms of the disease. Therefore, people have developed various drugs that target specific substances in the human body, and through this, they can treat diseases or relieve symptoms.

신약의 독성, 낮은 효능 및 임상 안전성에 대한 불확실성은 임상 실패의 주요 원인이며, 승인된 신약 개발에 드는 비용과 시간을 증가시킨다. 최근에 표현형적 선별(phenotypic screening) 기술 분야에서 상당한 기술적인 진전이 이루어지고 있다. 이러한 최근의 발전은 생물학적 네트워크 또는 시스템의 화학 반응에 대한 새로운 통찰력을 제공한다. 즉, 표현형적 선별 기술의 발달로 세포와 같은 생명 시스템의 약물에 대한 반응을 관측하는 일이 가능해졌다. 그에 따라 특정한 표적이 아닌 시스템 전체를 조절하는 약물들이 새로이 각광을 받게 되었다. 그러나 여전히 그와 같은 약물들도 인체 내에서 특정한 물질들과 결합함으로써 약효를 발휘하므로, 약물들의 표적을 밝혀 작용기작(mechanism of action)을 이해하는 일이 주요한 과제로 남아있다. Uncertainty about the toxicity, low efficacy and clinical safety of new drugs is a major cause of clinical failure, increasing the cost and time required to develop approved new drugs. In recent years, considerable technological progress has been made in the field of phenotypic screening technology. These recent advances provide new insights into the chemical reactions of biological networks or systems. In other words, with the development of phenotypic screening technology, it has become possible to observe the response of living systems such as cells to drugs. As a result, drugs that control the entire system, not specific targets, have become a new spotlight. However, since such drugs still exert their efficacy by binding to specific substances in the human body, it remains a major task to understand the mechanism of action by revealing the targets of drugs.

또한, 특정 물질을 표적으로 삼는 많은 약물들이 예기치 못한 부작용으로 인해 상용화에 실패하는 경우가 자주 발생한다. 그 실패의 가장 큰 원인으로 지목받는 것은 약물이 목표로 한 표적이 아닌 다른 표적과 결합함으로써 발생하는 탈표적(off-target) 효과이다. 약물의 표적이 이미 알려져 있더라도 다른 표적과의 연관성을 예측할 필요가 있다. 대부분의 약물이 하나 이상의 표적에 작용한다는 것이 일반적으로 인식되고 있다. 만일 새로 개발한 약물의 다양한 표적을 미리 예측할 수 있다면, 부작용을 사전에 예상하고 이를 줄이는 방향으로 약물을 최적화(lead optimization)하는 일이 가능하다. In addition, many drugs targeting a specific substance frequently fail to commercialize due to unexpected side effects. The biggest cause of the failure is the off-target effect that occurs when the drug binds to a target other than the target target. Even if the target of the drug is already known, it is necessary to predict its association with other targets. It is generally recognized that most drugs act on more than one target. If the various targets of the newly developed drug can be predicted in advance, it is possible to predict side effects in advance and optimize the drug in the direction of reducing them.

이와 같이 약물의 알려지지 않은 표적을 예측하는 일은 약학적, 생물학적인 측면에서 매우 유용하다. 약물의 표적을 확인하는 전통적인 방법은 친화성 크로마토그래피, 2D 겔 전기영동 및 mRNA 발현을 기반으로 하는 여러 방법들을 포함한다. 이러한 방법들을 사용하여 약물 표적을 높은 정확도로 식별할 수 있다. 하지만 새로운 약물이 수많은 인체 단백질 중 어떤 표적과 결합하는지 실험으로 측정하기 위해서는 막대한 양의 시간과 비용이 소모된다. 이는 신약 개발에 있어서 해가 갈수록 개발 비용이 증가하는 원인이 되기도 한다. Predicting an unknown target of a drug as such is very useful in terms of pharmaceutical and biological aspects. Traditional methods of identifying drug targets include affinity chromatography, 2D gel electrophoresis, and several methods based on mRNA expression. Using these methods, drug targets can be identified with high accuracy. However, it takes a huge amount of time and money to experimentally determine which target of a new drug binds to a number of human proteins. This may cause the development cost to increase year by year in the development of new drugs.

이러한 제한으로 인해 인-실리코(컴퓨터 시뮬레이션과 같은 가상 환경에서의) 표적 예측(in-silico target prediction)은 표적 식별을 위한 유망한 대안으로 고려되고 있다. 인-실리코 표적 예측은 리간드 기반 방법과 구조 기반 방법의 두 가지 범주로 분류할 수 있다. 특히, 리간드 기반 방법은 낮은 계산 비용과 높은 실행 가능성 때문에 대규모 가상 선별에서 유리하다. 리간드 기반 표적 식별의 가장 보편적 인 방법 중 하나는 구조-활성도 관계(structure-activity relationships: SAR)를 사용하여 리간드를 분류하는 것이다. SAR 접근법의 원리는 구조적으로 유사한 리간드가 비슷한 성질을 가질 수 있다는 것이다. SAR 접근법의 목적은 공지된 활성을 갖는 리간드 구조를 포함하는 화학 공간을 탐색하여 쿼리 리간드의 활성을 예측하는 것이다. 인-실리코 표적 예측에서, 리간드들의 구조는 분자 스크립터(molecular descriptors)나 분자 지문(molecular fingerprint)으로 표현될 수 있으며, 활성은 특정 표적과의 결합으로 정의될 수 있다.Due to these limitations, in-silico target prediction (in a virtual environment such as computer simulation) is considered a promising alternative for target identification. In-silico target prediction can be classified into two categories: ligand-based methods and structure-based methods. In particular, the ligand-based method is advantageous in large-scale virtual screening because of its low computational cost and high feasibility. One of the most common methods of ligand-based target identification is to classify ligands using structure-activity relationships (SAR). The principle of the SAR approach is that structurally similar ligands can have similar properties. The purpose of the SAR approach is to predict the activity of the query ligand by exploring the chemical space containing the ligand structure with known activity. In in-silico target prediction, the structure of ligands can be expressed as molecular descriptors or molecular fingerprints, and activity can be defined as binding to a specific target.

PubChem, ChEMBL, WOMBAT, ZINC와 같은 다양한 화학 유전체학 라이브러리(chemogenomics libraries)들은 다양한 약물과 표적 사이의 결합 강도를 측정한 에세이(assay) 데이터를 제공한다. 이와 같은 약물-표적 결합 정보를 바탕으로 전산적, 통계적 기법을 이용해 약물의 새로운 표적을 예측하려는 시도가 각광 받고 있다. 다수의 약물 정보로부터 효과적으로 특징을 알아내기 위해 주로 기계 학습(machine learning) 기법이 사용되고 있다. 기계학습 기법의 대표적인 예로는 서포트-벡터 머신(Support-vector machine: SVM), 나이브 베이즈 분류기(naive Bayesian classifier: NB), 인공 신경망(artificial neural network: ANN), 커널 판별(kernel discrimination) 등에 기반을 둔 기계학습법을 들 수 있다. Various chemogenomics libraries such as PubChem, ChEMBL, WOMBAT, and ZINC provide assay data that measures the strength of binding between various drugs and targets. Attempts to predict new targets of drugs using computational and statistical techniques based on such drug-target binding information are in the spotlight. Machine learning techniques are mainly used to effectively discover features from a large number of drug information. Representative examples of machine learning techniques are based on support-vector machine (SVM), naive Bayesian classifier (NB), artificial neural network (ANN), kernel discrimination, etc. There is a machine learning method using

이러한 방법들 중 NB는 리간드의 표적 분류에 효과적이지만, 분자적 특징에 조건부 의존성이 있는 경우에는 약하다. 또한, NB를 제외한 기계학습 방법들은 1,000여개 이상의 대규모 인체 표적 집합 가운데 진정한 표적과의 결합을 정확하게 예측하지 못하고, 특정한 개수의 예측 표적들 가운데 정확하게 예측된 표적의 비율을 나타내는 재현율(Recall rate)을 보고하지 않았다. 약물의 실험에 앞서 표적선별의 기능을 수행하는 기술의 특성상 적은 개수의 예측 표적 가운데 최대한 많은 정답 표적을 선별하는 성능은 중요하며 알고리즘의 효율을 나타내는 척도가 된다. Of these methods, NB is effective in classifying the target of the ligand, but is weak when there is a conditional dependence on the molecular characteristics. In addition, machine learning methods other than NB do not accurately predict the binding of a true target among a large set of more than 1,000 human targets, and report a recall rate indicating the ratio of accurately predicted targets among a specific number of predicted targets. Did not do it. Due to the nature of the technology that performs the function of target selection prior to drug experimentation, the ability to select as many correct answer targets as possible among a small number of predicted targets is important and is a measure of the efficiency of the algorithm.

표적 예측을 위한 SAR의 사용과 관련된 몇 가지 이슈로는 활성 자료의 불균형과 표적 전체의 비활성 리간드의 모호함 등이다. 이러한 문제는 이용 가능한 데이터에 대한 리간드 기반 접근법의 의존성에 기반을 두고 있다. 수십 년 동안 활발히 실험되어온 주요 단백질은 다른 표적보다 더 활동적인 데이터를 가지고 있다. 또한, 많은 관련 연구들에서, 표적에 대해 활성적이지 않은 것으로 알려진 리간드는 그 표적에 대한 비활성 리간드로 간주된다. 그러나 실제 리간드-표적 상호 작용들의 일부는 실험되지 않았을 수 있다. 데이터베이스에서 관찰된 이러한 편향으로 인해 특히 활성 데이터가 적은 표적의 경우 실제 상호 작용을 예측하는 데 실패에 이를 수 있다. 기계 학습 기법 가운데 하나인 랜덤포레스트(random forest: RF) 알고리즘은 과적합(overfitting)을 피하고 불균형한 데이터를 적절하게 다룰 수 있다고 여겨진다.Some of the issues associated with the use of SARs for target prediction are the imbalance of activity data and the ambiguity of inactive ligands across the target. This problem is based on the dependence of a ligand-based approach on the available data. Major proteins, which have been actively tested for decades, have data that are more active than other targets. In addition, in many related studies, a ligand known to be inactive against a target is considered an inactive ligand against that target. However, some of the actual ligand-target interactions may not have been tested. These biases observed in databases can lead to failures in predicting actual interactions, especially for targets with low activity data. It is believed that one of the machine learning techniques, the random forest (RF) algorithm, avoids overfitting and can properly handle unbalanced data.

이런 점들을 고려하여, 본 발명은 표준화 된 샘플링 방법으로 랜덤 포레스트 기계학습 알고리즘을 이용하여 다중 표적 모델을 구축함으로써 1,121개의 인체 표적들에 대한 약물의 결합을 예측할 수 있는 방법을 제공하기 위한 것이다. 특히, 본 발명은 교차 검증(cross-validation) 결과에 기초하여, 비활성 리간드들을 정의하는 표준과, 활성 리간드들과 비활성 리간드들 사이의 비율을 최적화하여 여러 표적 모델들을 포함하는 포괄적인 약물 다중 표적 예측 모델을 구축하기 위한 것이다.In consideration of these points, the present invention is to provide a method for predicting the binding of drugs to 1,121 human targets by constructing a multi-target model using a random forest machine learning algorithm as a standardized sampling method. In particular, the present invention is based on a cross-validation result, a standard for defining inactive ligands and a comprehensive drug multi-target prediction including multiple target models by optimizing the ratio between active and inactive ligands. To build a model.

본 발명은 또한 각 표적 별로 독립적인 랜덤 포레스트 예측 모델을 생성하는 것을 통해 사용자가 지정하는 특정 표적군에 대한 약물의 결합 결과를 용이하게 예측할 수 있는 방법을 제공하는 것이다.The present invention also provides a method for easily predicting the binding result of a drug to a specific target group designated by a user by generating an independent random forest prediction model for each target.

또한, 본 발명의 또 다른 목적은 각 표적 모델들이 약물과 표적이 결합할 객관적인 확률을 계산하므로 단순한 표적 순위가 아닌 약물-표적 결합 확률을 사용자에게 제시할 수 있는 표적에 대한 약물의 결합을 예측할 수 있는 방법을 제공하는 것이다.In addition, another object of the present invention is that since each target model calculates an objective probability that a drug and a target will bind, it is possible to predict the binding of a drug to a target that can present a drug-target binding probability to a user rather than a simple target ranking. Is to provide a way.

본 발명이 해결하고자 하는 과제는 상술한 과제들에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.The problem to be solved by the present invention is not limited to the above-described problems, and may be variously expanded without departing from the spirit and scope of the present invention.

상기 본 발명의 일 목적을 실현하기 위한 실시예들에 따른 랜덤 포레스트 예측 모델을 활용한 약물의 다중 표적 예측 방법은 컴퓨터 장치에서 실행되는 컴퓨터 프로그램을 이용하여 인체에 관한 다수의 표적들에 대한 약물의 결합을 예측하는 방법으로서, 상기 표적들과 결합하는 약물의 구조 정보를 기계 학습하여 각 표적 별로 독립적인 랜덤 포레스트(Random Forest) 예측 모델을 생성하는 단계; 예측대상 약물의 구조 정보를 각 랜덤 포레스트 예측 모델에 입력하는 단계; 각 표적 별 랜덤 포레스트 예측모델에서, 상기 표적들 각각에 대한 구조 정보가 입력된 상기 예측대상 약물의 결합 가능성을 각 표적별 표적 점수로 생성하는 단계; 각 표적 별 랜덤 포레스트 예측 모델이 상기 각 표적별 표적 점수를 약물과 표적이 상호작용할 확률인 약물-표적 결합 확률로 전환하는 단계; 및 상기 약물-표적 결합 확률에 기초하여 소정의 결합 확률값 이상을 갖는 표적들을 선별하여 상기 예측대상 약물의 예상 표적 리스트로 반환하는 단계를 포함한다.A method for predicting multiple targets of a drug using a random forest prediction model according to embodiments for realizing an object of the present invention is a method of predicting a drug against a plurality of targets related to the human body using a computer program executed in a computer device. A method of predicting binding, the method comprising: generating an independent random forest prediction model for each target by machine learning structural information of a drug that binds to the targets; Inputting structural information of the predicted drug into each random forest prediction model; Generating, in a random forest prediction model for each target, a binding probability of the predicted drug, into which structural information for each of the targets, is input, as a target score for each target; Converting, by the random forest prediction model for each target, the target score for each target into a drug-target binding probability, which is a probability of interaction between the drug and the target; And selecting targets having a predetermined binding probability value or more based on the drug-target binding probability and returning the predicted target list of the predicted drug.

예시적인 실시예들에 있어서, 상기 '랜덤 포레스트(Random Forest) 예측 모델을 생성하는 단계'는 상기 기계 학습을 하기 전에 학습할 데이터를 최적화하여 각 랜덤 포레스트(Random Forest) 예측 모델의 정확도를 높이고, 표적들 간의 편차(bias)를 줄이는 전처리를 수행하는 단계를 포함할 수 있다.In example embodiments, the'generating a random forest prediction model' increases the accuracy of each random forest prediction model by optimizing the data to be trained before the machine learning, It may include performing pre-processing to reduce bias between targets.

예시적인 실시예들에 있어서, 상기 전처리를 수행하는 단계는 비활성 리간드에 대한 활성 리간드의 비가 특정 값에 도달할 때까지 비활성 리간드의 부분 집합만을 무작위로 선택하는 음성-언더 샘플링 방법(negative-undersampling method)을 사용하여 비활성 리간드에 대한 활성 리간드의 비의 과도한 불균형을 해소하는 단계를 포함할 수 있다.In exemplary embodiments, the performing of the pretreatment comprises a negative-undersampling method of randomly selecting only a subset of the inactive ligand until the ratio of the active ligand to the inactive ligand reaches a specific value. ) Can be used to resolve the excessive imbalance of the ratio of active ligand to inactive ligand.

예시적인 실시예들에 있어서, 상기 전처리를 수행하는 단계는 비활성 리간드에 대한 활성 리간드의 비가 특정 값에 도달할 때까지 활성 리간드에 더 큰 가중치를 부여하여 활성 리간드를 상대적으로 더 많이 선택하는 양성-오버샘플링 방법을 사용하여 비활성 리간드에 대한 활성 리간드의 비의 과도한 불균형을 해소하는 단계를 포함할 수 있다.In exemplary embodiments, the step of performing the pretreatment is positive-selecting relatively more active ligands by assigning a greater weight to the active ligand until the ratio of the active ligand to the inactive ligand reaches a specific value. Oversampling methods may be used to resolve excessive imbalances in the ratio of active ligand to inactive ligand.

예시적인 실시예들에 있어서, 상기 전처리를 수행하는 단계는 활성 및 비활성 리간드의 확장 연결성 지문(Extended-Connectivity Fingerprints: ECFP)들간의 타니모토 계수(Tanimoto coefficient) Tc 유사성을 계산함으로써, 특정 임계값과 유사한 활성 데이터를 갖는 리간드들은 비활성 리간드에서 제외시키는 처리를 수행하는 단계를 포함할 수 있다.In example embodiments, the performing of the pre-processing comprises calculating a Tanimoto coefficient Tc similarity between extended-connectivity fingerprints (ECFPs) of active and inactive ligands, Ligands with similar activity data may include performing a treatment to exclude from inactive ligands.

예시적인 실시예들에 있어서, 상기 '표적 점수로 생성하는 단계'는 상기 표적들 중에서 특정 표적을 결과에서 제외하는 표적 필터링을 수행하는 단계를 포함할 수 있다.In example embodiments, the'generating as a target score' may include performing target filtering to exclude a specific target from among the targets from the result.

예시적인 실시예들에 있어서, 상기 약물의 다중 표적 예측 방법은 상기 다중 표적 예측 방법의 성능 검증을 위해 외부 테스트 집합을 이용하여 상기 다중 표적 예측 방법의 재현율(Recall rate)을 평가하는 단계를 더 포함할 수 있다.In exemplary embodiments, the method for predicting multiple targets of the drug further includes evaluating a recall rate of the method for predicting multiple targets using an external test set to verify the performance of the method for predicting multiple targets. can do.

예시적인 실시예들에 있어서, 상기 각 표적별 랜덤 포레스트 예측모델은 1,121개의 표적들 각각과 상기 예측대상 약물 간의 결합 가능성을 길이가 1,121인 점수 데이터로 표현할 수 있다.In example embodiments, the random forest prediction model for each target may express the possibility of binding between each of 1,121 targets and the drug to be predicted as score data having a length of 1,121.

예시적인 실시예들에 있어서, 상기 각 표적별 표적 점수는 외부 검증 집합으로부터 획득한 평가 데이터의 점수를 기반으로 하여 상기 약물-표적 결합 확률로 전환될 수 있다.In example embodiments, the target score for each target may be converted into the drug-target binding probability based on a score of evaluation data obtained from an external validation set.

예시적인 실시예들에 있어서, 상기 입력하는 단계는 웹서버 컴퓨터를 통해 사용자 인터페이스를 제공하여 사용자로 하여금 클라이언트 단말기에 표시되는 상기 사용자 인터페이스를 통해 예측 대상 약물의 쿼리 리간드의 구조 정보를 입력하게 하는 단계를 포함할 수 있다.In exemplary embodiments, the inputting comprises providing a user interface through a web server computer, allowing the user to input structure information of a query ligand of a drug to be predicted through the user interface displayed on a client terminal. It may include.

예시적인 실시예들에 있어서, 상기 약물의 다중 표적 예측 방법은 상기 웹서버 컴퓨터가 상기 예상 표적 리스트에 관한 정보를 웹 페이지에 담아 상기 클라이언트 단말기로 제공하는 단계를 더 포함할 수 있다.In example embodiments, the method for predicting multiple targets of the drug may further include the step of providing, by the web server computer, the information on the expected target list in a web page to the client terminal.

예시적인 실시예들에 있어서, 상기 약물의 다중 표적 예측 방법은 다양한 소스의 약물-표적 상호작용에 관한 생체 활성 데이터(Bioactivity data)로부터 특정 표적들 각각과 결합하는 약물의 구조 정보들을 수집하는 단계를 더 포함할 수 있다.In exemplary embodiments, the method of predicting multiple targets of a drug comprises collecting structural information of a drug that binds to each of specific targets from bioactivity data on drug-target interactions from various sources. It may contain more.

예시적인 실시예들에 있어서, 상기 랜덤 포레스트(Random Forest) 예측 모델은 1,121개의 표적에 대한 ChEMBL 데이터베이스의 약물 활성 데이터를 이용하여 구축될 수 있다.In example embodiments, the random forest prediction model may be constructed using drug activity data of a ChEMBL database for 1,121 targets.

본 발명의 예시적인 실시예들에 따르면 새로운 알고리즘인 RF QSAR은 랜덤 포레스트 기계학습 기법을 활용하여 1,121개의 인체 표적들에 대한 약물의 결합을 예측할 수 있다. According to exemplary embodiments of the present invention, RF QSAR, a new algorithm, may predict the binding of drugs to 1,121 human targets using a random forest machine learning technique.

독립된 외부 테스트 집합(external validation set)로 평가하였을 때, 본 발명에 따른 인체 표적들에 대한 약물 결합 예측 방법은 기존의 NB 모델들의 성능을 뛰어넘는 재현율을 보인다. 뿐만 아니라, 각 표적 별로 독립적인 랜덤 포레스트 모델을 생성하는 알고리즘의 특성으로 인해, 사용자가 지정하는 특정 표적군에 대해서 결과를 예측하기 용이하다. 또한, 각 표적 모델들이 약물과 표적이 결합할 객관적인 확률을 계산하므로 단순한 표적 순위가 아닌 약물-표적 결합 확률을 사용자에게 제시할 수 있다. When evaluated with an independent external validation set, the method for predicting drug binding to human targets according to the present invention exhibits a reproducibility that exceeds the performance of conventional NB models. In addition, due to the characteristics of the algorithm that generates an independent random forest model for each target, it is easy to predict the result for a specific target group designated by the user. In addition, since each target model calculates an objective probability that a drug and a target will bind, it is possible to present a drug-target binding probability to the user rather than a simple target ranking.

특히 기존 알고리즘과의 비교에서 기존에 사용한 것보다 더 유사도가 낮은-예측이 상대적으로 더 어려운-외부 테스트 집합을 사용했음에도, 더 높은 재현율을 달성하여 우수한 성능을 입증하였다. 즉, 상위 11 개(전체 표적의 상위 1 %에 해당)의 표적과 상위 33개의 표적(전체 표적의 상위 3%에 해당)에 대해 66.6%의 재현율과 73.9%의 재현율을 각각 보인다.In particular, in comparison with the existing algorithm, even though the external test set, which has a lower similarity than the conventional one-which is relatively more difficult to predict-was used, a higher reproducibility was achieved and excellent performance was demonstrated. That is, for the top 11 targets (corresponding to the top 1% of all targets) and the top 33 targets (corresponding to the top 3% of all targets), it shows a recall of 66.6% and a recall of 73.9%, respectively.

도 1은 본 발명의 예시적인 실시예에 따른 서버 컴퓨터에서 실행되는 RF-QSAR 모델을 활용한 약물의 다중 표적 예측 방법의 전체적인 절차를 나타낸다.
도 2는 1121개의 표적 모델들의 클래스 분포를 나타낸다.
도 3은 모델 점수와 상호작용의 추정 확률 간의 관계를 나타내는 그래프로서, 좌측 그래프는 점수에 따른 추정 확률의 그래프이고, 오른쪽 그래프는 로그 스케일 점수에 따른 추정 확률의 그래프이다.
도 4는 ROC 곡선과 내부 교차 검증에 의해 계산된 영역 하부곡선을 나타낸다.
도 5는 각 표적 모델과 모델 특성에 대한 성능의 산점도(scatter plot)이다.
도 6은 각 표적에 대한 활성 및 비활성 리간드들 간의 평균 점수를 비교한 것을 나타내는 그래프이다.
도 7은 내부 교차 검증에 의해 측정된 다양한 상위 k 값 (k = 1, 4, 8, 11, 33, 66, 88, 110)에 대한 재현율의 변화를 나타낸다.
도 8은 특정 표적들에 가장 가까운 활성 리간드의 타니모토(Tanimoto) 계수 분포를 나타낸다.
도 9는 외부 유효성 검증 집합의 결과를 선별하기 위한 ROC 곡선을 나타낸다.
도 10은 본 발명의 예시적인 실시예에 따른 RF-QSAR 모델 기반 다중 표적 예측 방법이 웹 서버 형태로 구현된 약물표적 예측서버가 사용자의 클라이언트 단말기의 쿼리에 대한 웹서비스를 제공하기 위한 시스템의 구성을 나타낸다.
도 11은 도 10의 약물표적 예측서버가 사용자의 클라이언트 단말기의 쿼리에 대한 응답으로 제공하는 결과 페이지를 예시한다.
1 shows an overall procedure of a method for predicting multiple targets of a drug using an RF-QSAR model executed in a server computer according to an exemplary embodiment of the present invention.
2 shows the class distribution of 1121 target models.
3 is a graph showing the relationship between the model score and the estimated probability of interaction, the left graph is a graph of the estimated probability according to the score, and the right graph is a graph of the estimated probability according to the log scale score.
4 shows the ROC curve and the region sub-curve calculated by the internal cross-validation.
5 is a scatter plot of the performance for each target model and model characteristics.
6 is a graph showing a comparison of average scores between active and inactive ligands for each target.
7 shows the change in recall for various upper k values (k = 1, 4, 8, 11, 33, 66, 88, 110) measured by internal cross-validation.
8 shows the distribution of Tanimoto coefficients of active ligands closest to specific targets.
9 shows an ROC curve for selecting the results of an external validation set.
10 is a configuration of a system for a drug target prediction server in which a multi-target prediction method based on an RF-QSAR model according to an exemplary embodiment of the present invention is implemented in a web server form to provide a web service for a query of a user's client terminal Represents.
11 illustrates a result page provided by the drug target prediction server of FIG. 10 in response to a query of a user's client terminal.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the accompanying drawings. The same reference numerals are used for the same elements in the drawings, and duplicate descriptions for the same elements are omitted.

도 1은 본 발명의 RF-QSAR 모델을 활용한 약물의 다중 표적 예측 방법(이하, '다중 표적 예측 방법'이라 함)의 전체적인 절차를 나타낸다. 이 다중 표적 예측 방법은 웹 서버에 구현될 수 있다. 이에 관한 자세한 사항은 후술한다(도 10 및 11에 관한 설명 참조)1 shows the overall procedure of a drug multi-target prediction method (hereinafter referred to as a'multi-target prediction method') using the RF-QSAR model of the present invention. This multi-target prediction method can be implemented in a web server. Details regarding this will be described later (see descriptions of FIGS. 10 and 11).

도 1을 참조하면, 본 발명의 예시적인 실시예에 따른 다중 표적 예측 방법을 실행하기 위해, 우선 다양한 소스의 Bioactivity(약물-표적 상호작용) 데이터로부터 특정 표적들 각각과 결합하는 약물의 구조 정보들을 수집할 수 있다(S10 단계). 예시적인 실시예에 따르면, 1,121 개의 표적 모델이 ChEMBL 데이터베이스의 생체 활성 데이터로 구축될 수 있다. 이 때, 학습할 데이터를 최적화하여 각 랜덤 포레스트(Random Forest) 예측 모델의 정확도를 높이고, 표적들 간의 편차(bias)를 줄이는 처리를 할 수 있다.Referring to FIG. 1, in order to execute the multi-target prediction method according to an exemplary embodiment of the present invention, first, structural information of a drug that binds to each of specific targets is collected from bioactivity (drug-target interaction) data of various sources. It can be collected (step S10). According to an exemplary embodiment, 1,121 target models may be constructed as bioactivity data of the ChEMBL database. In this case, by optimizing the data to be learned, the accuracy of each random forest prediction model can be increased, and a process can be performed to reduce a bias between targets.

수집된 약물의 구조 정보를 활용하여, 표적들과 결합하는 약물의 구조 정보를 기계 학습하여 표적 별로 학습된 랜덤 포레스트(Random Forest) 예측 모델을 각각 생성할 수 있다. 그런 다음, 예측대상 약물의 구조 정보를 각 랜덤 포레스트 예측 모델에 입력할 수 있다. 즉, 사용자가 서버에 쿼리 리간드를 입력하면 표적 모델에 대한 점수가 계산되어 점수 벡터가 작성될 수 있다(S20). 구체적으로, 각 랜덤 포레스트 예측모델에서, 구조 정보가 입력된 상기 예측대상 약물과 복수의 표적들 간의 결합 가능성을 표적 점수로 나타낼 수 있다. 그 표적 점수는 예컨대 0에서 1까지의 범위에서 실수 값으로 부여할 수 있다. 1,121개의 표적 전체에 대하여 표적 점수를 부여하면, 랜덤 포레스트 예측모델은 1,121개의 표적들 각각과 상기 예측대상 약물 간의 결합 가능성을 길이가 1,121인 점수 데이터 즉, 점수 벡터로 표현할 수 있게 된다. Using the collected structure information of the drug, it is possible to generate a random forest prediction model learned for each target by machine learning the structure information of the drug that binds to the targets. Then, the structure information of the drug to be predicted may be input into each random forest prediction model. That is, when a user inputs a query ligand into the server, a score for the target model is calculated and a score vector may be created (S20). Specifically, in each random forest prediction model, the possibility of binding between the predicted drug and a plurality of targets to which structure information has been input may be expressed as a target score. The target score can be assigned a real value in the range of 0 to 1, for example. If target scores are assigned to all 1,121 targets, the random forest prediction model can express the binding probability between each of the 1,121 targets and the predicted drug as score data having a length of 1,121, that is, a score vector.

그런 다음 점수 벡터가 활성화 확률로 변환될 수 있다. 즉, 각 표적 모델이 약물 결합 데이터를 기반으로 표적 점수를 약물-표적 결합 확률로 전환할 수 있다(S30). 약물-표적 결합 확률은 약물과 표적이 상호작용할 확률을 의미한다.Then the score vector can be transformed into activation probabilities. That is, each target model may convert the target score into a drug-target binding probability based on the drug binding data (S30). The drug-target binding probability refers to the probability that the drug and the target will interact.

얻어진 약물-표적 결합 확률에 기초하여, 소정의 결합 확률값 이상을 갖는 표적들을 선별하여 입력한 예측대상 약물의 예상 표적 리스트로 반환할 수 있다(S50). 마지막으로, 쿼리 리간드에 대한 확률에 따라 표적들의 순위가 매겨지고 순위에 따라 순서대로 사용자에게 보여질 수 있다.Based on the obtained drug-target binding probability, targets having a predetermined binding probability value or more may be selected and returned to the input predicted target list of the predicted drug (S50). Finally, the targets are ranked according to the probability for the query ligand, and can be shown to the user in order according to the ranking.

예시적인 실시예에 따르면, 검색할 표적은 사용자의 기호에 따라 클래스별로 필터링 할 수 있다. 즉, 사용자는 편의에 따라 표적들 가운데 특정 표적을 예측에서 제외할 수 있다(S40). 이러한 표적 필터링을 통해 예측 대상 표적의 수를 줄일 수 있다. 필터링을 통해 예측된 표적들 가운데 상위 결합 확률을 가지는 표적들을 선별하여 입력한 약물의 예상 표적 리스트로 반환할 수 있다. 이러한 표적 필터링은 단계 S30에서 얻어진 약물-표적 결합 확률에 기초하여 수행할 수 있다. According to an exemplary embodiment, a target to be searched may be filtered by class according to a user's preference. That is, the user may exclude a specific target among targets from prediction according to convenience (S40). Through such target filtering, the number of targets to be predicted can be reduced. Targets with a higher binding probability among the predicted targets through filtering may be selected and returned to a list of expected targets of the input drug. This target filtering may be performed based on the drug-target binding probability obtained in step S30.

외부 테스트 집합으로 상기 다중 표적 예측 방법에 따른 알고리즘의 재현율(Recall rate)을 평가하여 기존의 알고리즘과 성능을 비교할 수 있다. 비교 평가에 따르면, 본 발명에 따른 다중 표적 예측 방법은 우수한 예측 성능을 보임을 확인할 수 있다. By evaluating the recall rate of the algorithm according to the multi-target prediction method with an external test set, it is possible to compare performance with an existing algorithm. According to the comparative evaluation, it can be confirmed that the multi-target prediction method according to the present invention exhibits excellent prediction performance.

이하에서는 상기 다중 표적 예측 방법의 각 단계(S10-S50)에 관한 좀 더 구체적으로 설명한다. Hereinafter, each step (S10-S50) of the multi-target prediction method will be described in more detail.

S10 단계와 관련하여, 본 발명의 예시적인 실시예에 따른 RF-QSAR 방법은 다양한 소스의 생체 활성(Bioactivity)(약물-표적 상호작용) 데이터로부터 특정 표적과 결합하는 약물의 구조 정보들을 수집할 수 있다. 예컨대 ChEMBL (버전 20) 데이터베이스가 SAR 모델링을 위한 활성 및 비활성 훈련 데이터 집합을 구축하는 데 사용될 수 있다. 특정 표적들에 대한 활성 리간드는 IC50, EC50, Ki 및 Kd 를 사용하여 테스트하여 10μM보다 낮은 활성을 갖는 분자들로 정의될 수 있다. ChEMBL에 예치된 인간 단백질들 중에서, 예컨대 적어도 10 개의 공지된 결합 리간드를 갖는 단백질이 모델 개발을 위해 선택될 수 있다. 이렇게 함으로써 불충분하게 낮은 양의 활성 데이터를 갖는 신뢰할 수 없는 모델이 생성되는 것을 피할 수 있다. With respect to step S10, the RF-QSAR method according to an exemplary embodiment of the present invention can collect structural information of a drug that binds to a specific target from bioactivity (drug-target interaction) data from various sources. have. For example, the ChEMBL (version 20) database can be used to build active and inactive training data sets for SAR modeling. Active ligands for specific targets can be defined as molecules with activity lower than 10 μM by testing using IC50, EC50, Ki and Kd. Among the human proteins deposited in ChEMBL, for example, proteins with at least 10 known binding ligands can be selected for model development. This avoids the creation of unreliable models with insufficiently low amounts of activity data.

선택된 훈련 집합은 1121 개의 표적 및 235,713 개의 고유한 리간드에 대응한다. 각 표적에 대해 알려진 활성 리간드의 수는 10 내지 4305이다. 또한 클래스, 시퀀스 및 도메인을 포함한 표적 정보는 ChEMBL 데이터베이스에서 검색되어 서버에서 더 활용될 수 있다. The selected training set corresponds to 1121 targets and 235,713 unique ligands. The number of known active ligands for each target is 10-4305. In addition, target information including class, sequence and domain can be retrieved from the ChEMBL database and further utilized by the server.

도 2는 표적 모델의 클래스 분포를 보여준다.1121 개의 표적들은 효소, 멤브레인 수용체, 이온 채널 등 다양한 표적 클래스 아래로 분류될 수 있다. 대부분의 표적(685 개)은 효소이므로, 키나아제, 프로테아제 및 포스파타제와 같은 효소 서브 클래스에 의해 분류될 수 있다. 소수의 표적들이 여러 클래스에 속하기 때문에 각 클래스의 표적 개수 합계는 1121개 (총 표적 개수) 대신 1143 개이다.Figure 2 shows the class distribution of the target model. 1121 targets can be classified under various target classes, such as enzymes, membrane receptors, and ion channels. Since most of the targets (685) are enzymes, they can be classified by subclass of enzymes such as kinases, proteases and phosphatases. Since a small number of targets belong to several classes, the total number of targets for each class is 1143 instead of 1121 (total number of targets).

예시적인 실시에 따르면, 상기 RF-QSAR 방법은 표적들과 결합하는 약물 구조 정보를 기계 학습하여 표적 별로 랜덤 포레스트 알고리즘을 이용하여 랜덤 포레스트(Random Forest) 예측 모델 생성할 수 있다.According to an exemplary implementation, the RF-QSAR method may generate a random forest prediction model using a random forest algorithm for each target by machine learning drug structure information associated with targets.

ChEMBL로부터 얻어진 리간드 데이터는 ChemAxon 표준화 장치를 사용하여 표준화된다. "단편 제거", "중성화", "명시적 수소 제거", "Clean 2D", "Mesomerize" 및 "Tautomerize" 옵션들이 사용될 수 있다. 결과물로 얻어지는 SMILES는 예컨대 RDKit python 모듈을 사용하여 예컨대 2048 비트 길이의 문자열을 가진 ECFP_4 지문 (직경 4의 확장 연결성 지문)을 생성하는 데 이용될 수 있다. 이어서, 각각의 표적에 대해, 공지된 활성 데이터를 갖는 리간드는 양성(positive) 리간드로서 사용되지만, 활성 데이터가 없는 리간드는 음성(negative) (비활성) 리간드로 가정될 수 있다. 아래에 설명된 샘플링 및 필터링 프로세스 후, 표적 모델들은 sklearn python 모듈에 구현된 랜덤 포레스트(RF) 알고리즘을 사용하여 활성 및 비활성 리간드의 확장 연결성 지문(Extended-Connectivity Fingerprints: ECFP) 데이터를 기반으로 훈련할 수 있다. 활성 예측과 표적 예측(target fishing) 모두에 사용될 각 표적에 대한 개별 모델을 구축할 수 있다. Ligand data obtained from ChEMBL are normalized using the ChemAxon standardization device. "Fragment removal", "neutralization", "explicit hydrogen removal", "Clean 2D", "Mesomerize" and "Tautomerize" options can be used. The resulting SMILES can be used, for example, to generate an ECFP_4 fingerprint (an extended connectivity fingerprint of diameter 4) with a string of 2048 bits in length, for example using the RDKit python module. Then, for each target, a ligand with known activity data is used as a positive ligand, whereas a ligand without activity data can be assumed to be a negative (inactive) ligand. After the sampling and filtering process described below, target models will be trained based on Extended-Connectivity Fingerprints (ECFP) data of active and inactive ligands using a random forest (RF) algorithm implemented in the sklearn python module. I can. Individual models can be built for each target to be used for both activity prediction and target fishing.

랜덤 포레스트 알고리즘은 과적합(overfitting) 및 클래스 불균형으로 인한 바이어스를 감소시키는 것으로 알려져 있다. ChEMBL로부터 얻은 생체 활성 데이터는 활성 데이터와 비활성 데이터 사이, 그리고 표적 사이에서도 여러 등급의 불균형을 가지고 있기 때문에, 랜덤 포레스트 분류 방법은 그러한 편향을 효과적으로 처리할 수 있다. 랜덤 포레스트 알고리즘은 계층적 특성으로 인한 의사 결정 트리 모델의 불안정성을 극복하기 위해 배깅(bagging) 및 하위 집합 선택 기법을 적용할 수 있다. 여러 개의 훈련 집합을 무작위로 샘플링하여 여러 개의 나무를 만들고, 그 특징들을 아웃오브-백 케이스(out-of-bag cases)를 기반으로 정제할 수 있다. 본 발명의 예시적인 실시예에서 각 표적 모델의 수를 100으로 설정할 수 있다. 0에서 1까지의 점수는 쿼리 리간드가 활성임을 결정하는 트리의 비율로 정의될 수 있다.The random forest algorithm is known to reduce bias due to overfitting and class imbalance. Since bioactivity data obtained from ChEMBL has several grades of imbalance between activity data and inactivity data, and even between targets, the random forest classification method can effectively deal with such biases. The random forest algorithm can apply bagging and subset selection techniques to overcome the instability of the decision tree model due to hierarchical characteristics. Multiple training sets can be randomly sampled to create multiple trees, and their features can be refined based on out-of-bag cases. In an exemplary embodiment of the present invention, the number of each target model may be set to 100. A score from 0 to 1 can be defined as the percentage of the tree that determines that the query ligand is active.

예시적인 실시예에 따르면, 기계 학습을 하기 전에 학습할 데이터를 최적화하여 각 랜덤 포레스트(Random Forest) 예측 모델의 정확도를 높이고, 표적들 간의 편차(bias)를 줄이기 위한 전처리를 수행할 수 있다. 이 전처리를 통해, 예측 모델을 학습하기 전에 비활성 데이터의 클래스 불균형과 모호성을 처리할 수 있다. According to an exemplary embodiment, it is possible to optimize the data to be trained before machine learning, thereby increasing the accuracy of each random forest prediction model and performing preprocessing to reduce a bias between targets. Through this preprocessing, class imbalance and ambiguity of inactive data can be handled before training the predictive model.

구체적으로, 몇 개의 표적의 경우, 비활성 리간드에 대한 활성 리간드의 비가 1 : 23,570 일 정도로 엄청나게 크다. 이는 활성 리간드의 수가 비활성 리간드의 수보다 현저히 적음을 의미한다. 이러한 불균형으로 인해 예측의 정확성이 현저히 떨어질 수 있다. 그러므로 다음과 같은 두 가지 샘플링 방법을 사용하여 상기 전처리를 함으로써 클래스 불균형을 해결할 수 있다. 예시적인 실시예에 따르면, 음성-언더 샘플링 방법(negative-undersampling method)을 사용하여 비활성 리간드에 대한 활성 리간드의 비가 특정 값에 도달할 때까지 비활성 리간드의 부분 집합만을 무작위로 선택할 수 있다. 예시적인 다른 실시예에 따르면, 양성-오버 샘플링 방법(positive-oversampling method)을 사용하여 활성 리간드를 반복적으로 선택할 수도 있다. 실용성 때문에, 양성-오버 샘플링 방법은 훈련 시 활성 리간드에 더 큰 가중치(weight)를 부과함으로써 활성 리간드를 상대적으로 더 많이 선택되게 할 수 있다. 이들 방법을 통해 비활성 리간드에 대한 활성 리간드의 비의 과도한 불균형을 해소할 수 있다. 예시적인 실시예에서는 표적들이 다수의 활성 리간드들과 과적합화 되지 않도록 표적들 전반에 걸쳐 공통의 비를 사용할 수도 있다. Specifically, for several targets, the ratio of the active ligand to the inactive ligand is extremely large, such as 1:23,570 days. This means that the number of active ligands is significantly less than the number of inactive ligands. This imbalance can significantly reduce the accuracy of predictions. Therefore, the class imbalance can be solved by performing the pre-processing using the following two sampling methods. According to an exemplary embodiment, only a subset of the inactive ligands can be randomly selected until the ratio of the active ligand to the inactive ligand reaches a specific value using a negative-undersampling method. According to another exemplary embodiment, an active ligand may be repeatedly selected using a positive-oversampling method. Because of its practicality, the positive-over-sampling method can result in a relatively more selection of active ligands by imposing a greater weight on the active ligand during training. These methods can resolve the excessive imbalance of the ratio of active ligand to inactive ligand. In an exemplary embodiment, it is also possible to use a common ratio across the targets so that the targets do not overcommit with multiple active ligands.

비활성 리간드들을 정의하는 것은 종종 비활성 리간드가 활성 리간드에 비해 상대적으로 모호하므로 논란의 여지가 있을 수 있다. 활성 데이터가 없는 일부 리간드들이 실제로는 활성 상태일 수도 있으며, 그것들은 비활성 리간드 집합에서 제외해야 한다. 활성 및 비활성 리간드의 확장 연결성 지문(Extended-Connectivity Fingerprints: ECFP)들간의 타니모토 계수(Tanimoto coefficient) Tc 유사성을 계산함으로써, 특정 임계값과 유사한 활성 데이터를 갖는 리간드들은 비활성 리간드에서 제외시킬 수 있다.Defining inactive ligands can often be controversial as inactive ligands are relatively ambiguous compared to active ligands. Some ligands for which there is no active data may actually be active, and they should be excluded from the set of inactive ligands. By calculating the Tanimoto coefficient Tc similarity between extended-connectivity fingerprints (ECFPs) of active and inactive ligands, ligands having activity data similar to a specific threshold can be excluded from the inactive ligand.

S20 단계와 관련하여, 생성된 랜덤 포레스트 예측 모델에 대하여 내부 교차 유효성 검사를 통해 각 랜덤 포레스트 예측 모델의 예측 성능을 평가할 수 있다. 예시적인 실시예에 따르면, 랜덤 포레스트 모델의 성능을 검증하기 위해, 5중 교차 검증 방법(five-fold cross-validation method)을 사용하여 훈련 데이터에 대한 모델의 예측 성능을 평가할 수 있다. 예컨대, 모든 표적들에 걸친 235,713 개의 활성 리간드를 5개의 부분 집합으로 나누고, 하나의 부분 집합을 테스트 리간드 집합으로 따로 설정할 수 있다. 나머지 집합들의 리간드들은 상기 데이터 전처리에 이어 예측 모델을 개발하기 위한 훈련 데이터로 사용될 수 있다. 테스트 리간드들과 표적 모델 간의 결합 가능성에 관한 점수가 계산될 수 있다. 점수 임계값보다 높은 점수를 갖는 리간드는 양성 표지(positive labels)로서 예측되고 다른 것들은 음성으로 예측될 수 있다. Regarding step S20, prediction performance of each random forest prediction model may be evaluated through an internal cross-validation test on the generated random forest prediction model. According to an exemplary embodiment, in order to verify the performance of the random forest model, the prediction performance of the model for training data may be evaluated using a five-fold cross-validation method. For example, 235,713 active ligands across all targets could be divided into 5 subsets, and one subset could be set separately as a test ligand set. The remaining sets of ligands may be used as training data for developing a predictive model following the pre-processing of the data. A score can be calculated on the likelihood of binding between the test ligands and the target model. Ligands with scores above the score threshold are predicted as positive labels and others can be predicted as negative.

예시적인 실시예에 따르면, 먼저 테스트 집합에 대한 각각의 훈련된 모델의 성능은 점수 문턱값을 0에서 1로 변화시켜 수신자 조작 특성(receiver-operating characteristic: ROC) 곡선을 사용하여 평가할 수 있다. 또한, 활성 리간드의 평균 점수와 비활성 리간드의 평균 점수를 비교하여 그 두 평균값이 크게 다른지 확인할 수 있다. 활성 리간드의 평균 점수와 비활성 리간드의 평균 점수 간의 비율을 각 표적에 대해 계산하고 예컨대 5중(five-fold)으로 평균할 수 있다. 끝으로, 각 리간드에 대한 표적들의 점수를 기반으로 1,121 개의 표적들에 대하여 순서대로 정리하여 표적들의 순위를 매길 수 있다. 그리고 재현율을 계산할 수 있다. 재현율의 계산은 순위가 매겨진 표적들의 목록으로부터 최상위 k 값 (k = 4, 7, 11, 33, 66, 88 및 110)이 양성으로 예측되는 것을 가정하여 이루어질 수 있다. According to an exemplary embodiment, first, the performance of each trained model for a test set can be evaluated using a receiver-operating characteristic (ROC) curve by changing a score threshold from 0 to 1. In addition, by comparing the average score of the active ligand and the average score of the inactive ligand, it can be confirmed whether the two average values are significantly different. The ratio between the average score of the active ligand and the average score of the inactive ligand can be calculated for each target and averaged, for example, five-fold. Finally, based on the score of the targets for each ligand, 1,121 targets may be arranged in order and the targets may be ranked. And the recall can be calculated. Calculation of recall can be made assuming that the highest k values (k = 4, 7, 11, 33, 66, 88 and 110) are predicted as positive from the ranked list of targets.

그런 다음, 서로 다른 5 가지 테스트 집합에 대해 평가를 평균할 수 있다. 샘플링 방법, 비활성 리간드 수와 활성 리간드 수 간의 비율, 그리고 비활성 리간드에 대한 타니모토 계수 Tc 유사성 컷오프를 변경하여 다양한 표적 예측 모델을 구축하고 평가할 수 있고 이로부터 최적의 매개 변수를 결정할 수 있다. You can then average the ratings over five different sets of tests. By changing the sampling method, the ratio between the number of inactive ligands and the number of active ligands, and the Tanimoto coefficient Tc similarity cutoff for inactive ligands, various target prediction models can be constructed and evaluated, from which the optimal parameters can be determined.

따라서 ChEMBL 버전 20의 전체 훈련 집합을 가지고서 최적화된 전처리 방법을 사용하는 벤치마크 모델을 만들 수 있다. 하지만 그 벤치마크 모델을 평가하려면 독립적인 검증 집합이 필요하다. 따라서 ChEMBL 버전 21에서 추가적인 생체 활성 데이터를 검색하여 외부 유효성 검증 집합으로 사용할 수 있다. 그 외부 집합은 표적 모델들로부터 선택된 적어도 하나의 활성 표적을 갖는 신규 리간드만을 함유할 수 있다. 훈련 집합에서와 동일한 확장 연결성 지문(Extended-Connectivity Fingerprints: ECFP)을 갖는 리간드들 또한 그 유효성 검증 집합에서 제거될 수 있다. 그 결과로 얻어지는 13,589 개의 외부 리간드로, 검증 집합과 1121개의 표적 모델 사이의 점수 매트릭스가 얻어질 수 있다. 그 후, ROC 곡선과 그 곡선 아래의 면적(AUC) 값, 그리고 상위-k 표적 (k = 11과 33, 이는 각각 총 표적 개수의 1%와 3%에 해당함)에 대한 재현율을 평가할 수 있다. 평가된 재현율을 기존의 다른 방법을 통해서 얻은 결과와 비교할 수 있다.Thus, with the full training set of ChEMBL version 20, we can create a benchmark model using an optimized preprocessing method. However, to evaluate the benchmark model, you need an independent set of validations. Therefore, additional bioactivity data can be retrieved from ChEMBL version 21 and used as an external validation set. The outer set may contain only new ligands with at least one active target selected from target models. Ligands having the same Extended-Connectivity Fingerprints (ECFP) as in the training set may also be removed from the validation set. With the resulting 13,589 external ligands, a score matrix between the validation set and 1121 target models can be obtained. Then, the ROC curve and the area under the curve (AUC) value, and the recall for the top-k targets (k = 11 and 33, which correspond to 1% and 3% of the total number of targets, respectively) can be evaluated. The evaluated recall can be compared with the results obtained through other conventional methods.

다음으로, 표적들과 예측대상 약물(리간드) 간의 예측 점수를 그 약물과 표적의 상호작용 확률로 전환하는 단계 S30과 관련하여 좀 더 구체적으로 설명한다. Next, it will be described in more detail with respect to step S30 of converting the predicted score between the targets and the predicted drug (ligand) into the probability of interaction between the drug and the target.

위와 같은 가상적인 분석을 통해 얻은 예측 점수가 비활성 리간드와 활성 리간드를 구별하는 데는 유용하지만, 사용자는 특정 점수를 갖는 상호작용(표적과 예측대상 약물 간)이 실제로 활성인지 여부를 알고 싶어 할 수 있다. 표적들의 순위를 매김에 있어, 일부 리간드들은 순위가 상위인 표적들과도 상호작용할 확률이 낮을 수도 있다. 예시적인 실시예에 따르면, 이러한 모호성을 극복하기 위해 예측 모델의 예측 점수를 상호작용 확률로 변환하는 확률 추정 함수를 제안할 수 있다. 외부 검증 집합의 가상적인 분석으로부터, 리간드-표적 쌍들을 0에서 1까지의 몇 가지 점수 컷오프에 의해 구분할 수 있다. 각 점수 컷오프에 대해, 해당 컷오프보다 더 높은 점수를 갖는 상호작용 쌍들은 유지될 수 있다. 활성 쌍의 개수를 각 컷오프의 전체 쌍의 개수로 나눈 값을 기준으로 상호작용의 확률이 추정될 수 있다. While the predicted scores obtained through hypothetical analysis as above are useful in distinguishing between inactive and active ligands, users may want to know whether the interaction with a specific score (between the target and the predicted drug) is actually active. . In ranking targets, some ligands may be less likely to interact with higher ranked targets. According to an exemplary embodiment, in order to overcome this ambiguity, a probability estimation function for converting a prediction score of a prediction model into an interaction probability may be proposed. From hypothetical analysis of the external validation set, ligand-target pairs can be distinguished by several score cutoffs from 0 to 1. For each score cutoff, interaction pairs with a score higher than that cutoff may be maintained. The probability of interaction may be estimated based on a value obtained by dividing the number of active pairs by the total number of pairs of each cutoff.

이를 위한 예시적인 실시예에 따르면, 새로운 리간드들에 관한 벤치마크 모델의 성능을 테스트하기 위해 ChEMBL의 새 버전의 데이터를 사용하여 외부 검증 집합을 개발할 수 있다. 외부 검증 집합의 약물 구조를 각 표적 모델에 입력하면 해당하는 약물-표적 쌍의 점수를 얻을 수 있다. 그렇게 얻어진 점수들(총 13589 약물 x 1121 표적)을 이용해 확률 값을 추정할 수 있다. 즉, 외부 평가 데이터에서 활성 약물과 비활성 약물의 모델 점수를 측정해서 점수가 특정 값 이상 일 때 약물이 활성일 확률을 측정할 수 있다. 벤치마크 모델에서 구현 된 가장 가까운 리간드에 대한 외부 검정 집합의 평균 Tc 유사성 값이 0.55로 얻어지므로, 이 값을 상기 특정 값으로 사용할 수도 있다.According to an exemplary embodiment for this, an external validation set can be developed using data of a new version of ChEMBL to test the performance of a benchmark model for new ligands. The drug structure of the external validation set can be entered into each target model to obtain a score for the corresponding drug-target pair. The obtained scores (total of 13589 drugs x 1121 targets) can be used to estimate the probability value. That is, by measuring the model scores of the active drug and the inactive drug from the external evaluation data, the probability that the drug is active when the score is greater than or equal to a specific value can be measured. Since the average Tc similarity value of the external test set for the nearest ligand implemented in the benchmark model is obtained as 0.55, this value may be used as the specific value.

상호작용의 추정 확률이 얻어지면, 도 3에 예시된 것처럼 그 추정 확률과 모델의 예측 점수 간의 관계를 그래프로도 나타낼 수 있다. 도 3에서, 좌측 그래프는 모델의 예측 점수에 따른 추정 확률을 나타낸 것이고, 오른쪽 그래프는 로그 스케일된 예측 점수에 따른 추정 확률을 나타낸 것이다. 도시된 그래프의 곡선은 시그모이드 함수에 맞춰질 수 있다.When the estimated probability of the interaction is obtained, as illustrated in FIG. 3, the relationship between the estimated probability and the predicted score of the model can also be expressed as a graph. In FIG. 3, a graph on the left shows an estimation probability according to a prediction score of a model, and a graph on the right shows an estimation probability according to a log scaled prediction score. The curve of the graph shown can be fitted to a sigmoid function.

위와 같은 다중 표적 예측 방법의 알고리즘은 컴퓨터에서 실행될 수 있는 프로그램으로 구현될 수 있다. 예시적인 실시예에 따르면, 그 프로그램은 웹 기반 서버에 표적 예측 모델(target fishing model)로 구현될 수 있다. 사용자들은 클라이언트 단말기로 그 웹 서버 컴퓨터에 접속하여 표적 예측 모델을 이용할 수 있다. 이를 통해 쿼리 리간드의 예상 표적을 자유롭게 검색할 수 있다. 현재 ChEMBL 버전 20의 생체 활성 데이터를 사용하여 최적화 된 매개 변수로 랜덤 포레스트 모델을 구축할 수 있다. PHP와 jQeury가 웹 프로그래밍에 사용될 수 있다. ChemAxon standardizer는 훈련에 사용된 것과 똑같이 SMILES 형식을 표준화하기 위해 구현된다. 또한 Open Babel 소프트웨어는 리간드 구조를 2D 그림으로 변환하기 위해 포함되어 있다.The algorithm of the multi-target prediction method as described above can be implemented as a program that can be executed on a computer. According to an exemplary embodiment, the program may be implemented as a target fishing model on a web-based server. Users can access the web server computer with a client terminal and use the target prediction model. This allows you to freely search for the expected target of the query ligand. Currently, using the bioactivity data of ChEMBL version 20, it is possible to construct a random forest model with optimized parameters. PHP and jQeury can be used for web programming. The ChemAxon standardizer is implemented to standardize the SMILES format exactly as it was used in training. In addition, Open Babel software is included to convert the ligand structure into a 2D picture.

본 발명의 예시적인 실시예에 따라 제안된 SAR 모델들에 대한 내부 검증이 5중 교차 검증 절차를 사용하여 수행될 수 있다. 내부 검증의 성능은 최적화된 샘플링 방법 및 매개 변수를 사용하여 측정된다. 5중 교차 검증의 가상 선별 결과가 각 표적 모델의 성능을 측정하는 데 첫 번째로 사용될 수 있다. 따라서 각 모델의 ROC 곡선은 5중 교차 검증으로부터 ROC 곡선의 평균을 취하여 계산될 수 있다. ROC 곡선 (AUC) 아래쪽 면적을 평가하여 각 표적 모델의 성능을 평가할 수 있다. Internal verification for SAR models proposed according to an exemplary embodiment of the present invention may be performed using a five-fold cross verification procedure. The performance of the internal verification is measured using the optimized sampling method and parameters. The hypothetical screening results of the five-fold cross-validation can be used first to measure the performance of each target model. Therefore, the ROC curve of each model can be calculated by taking the average of the ROC curve from the five-fold cross-validation. The area under the ROC curve (AUC) can be evaluated to assess the performance of each target model.

도 4는 1121 표적 모델에 대한 ROC 곡선 및 전체 ROC 곡선(왼쪽 도면)과, 표적들에 대한 AUC 값의 박스 플롯(오른쪽 도면)을 보여준다. 왼쪽 그래프에서, 파란색 점선은 AUC = 0.5인 임의 선택을 위한 ROC 곡선을 나타낸다. 빨간색 곡선은 각 표적에 대한 ROC 곡선이며, 검은색 선은 전체 표적에 걸친 모든 선별 데이터를 사용하여 작성된 전체 ROC 곡선이다. 오른쪽 도면에서, 빨간색 선은 AUC의 중간 값을 나타낸다. 전체 ROC에 대한 AUC의 중간값은 0.97이다. 이는 이들 모델이 활성 리간드를 비활성 리간드로부터 우수한 민감도로 구별하는 데 사용될 수 있음을 암시한다. 박스 플롯은 대부분의 모델 (~ 75 %)의 AUC 값이 0.9 이상임을 보여줍니다. 몇몇 모델 (~ 7 %)의 AUC 값은 0.7 미만이지만, 그 모델들의 AUC 값은 0.5 이상이며 AUC 값의 중간 값은 0.97이다. Figure 4 shows the ROC curve and the overall ROC curve for the 1121 target model (left figure) and a box plot of the AUC values for the targets (right figure). In the left graph, the blue dotted line represents the ROC curve for random selection with AUC = 0.5. The red curve is the ROC curve for each target, and the black line is the overall ROC curve created using all selection data across the entire target. In the right figure, the red line represents the median value of AUC. The median AUC for total ROC is 0.97. This suggests that these models can be used to distinguish active ligands from inactive ligands with good sensitivity. The box plot shows that most models (~75%) have AUC values of 0.9 or higher. Some models (~7%) have an AUC value of less than 0.7, but those models have an AUC value greater than 0.5 and a median AUC value of 0.97.

도 5는 각 표적 모델과 모델 특성에 대한 성능을 나타내는 산점도로서, 좌측의 a는 AUC 값들의 산포도를 나타내고, 우측의 B는 활성 데이터의 평균 점수에 대한 산포도를 나타낸다. 모델 특성은 활성 리간드의 수 (클래스 크기) 및 활성 리간드(클래스 내 Tc)들 간의 Tc 유사성을 포함할 수 있다. 그래프의 각 점은 각 표적 모델의 사양을 나타낸다. 전반적인 경향은 낮은 성능을 가진 모델들이 작은 클래스 크기와 낮은 클래스 내 Tc를 가진다는 것을 보여준다. 5 is a scatter plot showing the performance of each target model and model characteristics, where a on the left represents a scatter plot of AUC values, and B on the right represents a scatter plot for the average score of the activity data. Model characteristics may include the number of active ligands (class size) and the Tc similarity between active ligands (Tc in class). Each point on the graph represents the specification of each target model. The overall trend shows that models with low performance have a small class size and low intraclass Tc.

낮은 AUC 값을 갖는 모델은 도 5a에 도시된 바와 같이 일반적으로 적은 수의 활성 리간드 (클래스 크기)와 활성 리간드들(클래스 내 Tc) 사이에 낮은 Tc 유사성을 갖는다. 이는 아마도 교차 검정될 활성 리간드들의 일부는 작고 소한 표적 클래스에 대하여 근처에 어떤 다른 활성 리간드들을 갖지 않기 때문일 것이다. 표적 모델의 점수는 많은 다른 것들 간의 진정한 상호 작용을 결정하기 위해 사용되기 때문에, 활성 리간드들의 점수는 비활성 리간드의 점수보다 상당히 높아야 한다. 이러한 추세를 확인하기 위해 5중 교차 검증을 사용하여 각 표적에 대해 양성 및 음성 집합들의 평균 점수를 계산할 수 있다. 도 6의 a는 각 표적에 대한 활성 리간드와 비활성 리간드들 간의 평균 점수의 박스 플롯을 나타내며, b는 비활성 리간드의 평균 점수에 대한 활성 리간드의 평균 점수의 비율 분포를 나타낸다. Ratio = 10은 활성 데이터의 평균 점수가 표적에 대한 비활성 리간드의 평균 점수보다 10 배 큰 것을 의미한다. 비율의 간격을 1, 10, 100, 1000, 10,000, 100,000, 1,000,000으로 나눈 표적 수를 측정하고 그래프의 X 축을 로그 스케일링한다. 음성 집합의 평균 점수가 표적 모델 (최대 = 0.02)에 대해 거의 영인 반면, 양성 집합의 평균 점수는 0.64의 중간 값을 가지면서 넓게 분포된다는 것을 관찰한다(도 6의 a 참조). 양성 집합에서 평균 점수가 낮은 표적들은 일반적으로 작은 클래스 사이즈 및 낮은 클래스 내 Tc 값들을 갖는데, 이는 AUC 분포에서 관찰된 추세와 유사하다 (도 5의 b 참조). 그럼에도 불구하고 대부분의 표적 모델 (99 %)의 양성 집합의 평균 점수는 음성 집합의 평균 점수보다 적어도 10 배 이상 높다 (도 6의 b 참조).Models with low AUC values generally have a low Tc similarity between a small number of active ligands (class size) and active ligands (Tc in class) as shown in FIG. 5A. This is probably because some of the active ligands to be cross-assayed are small and do not have any other active ligands nearby for a small target class. Since the score of the target model is used to determine the true interaction between many others, the score of the active ligands should be significantly higher than the score of the inactive ligand. To confirm this trend, a five-fold cross-validation can be used to calculate the average score of the positive and negative sets for each target. 6A shows a box plot of the average score between the active and inactive ligands for each target, and b shows the ratio distribution of the average score of the active ligand to the average score of the inactive ligand. Ratio = 10 means that the average score of the activity data is 10 times greater than the average score of the inactive ligand for the target. Measure the number of targets divided by the interval of the ratio by 1, 10, 100, 1000, 10,000, 100,000, 1,000,000, and log scale the X axis of the graph. It is observed that the average score of the negative set is nearly zero for the target model (max = 0.02), while the average score of the positive set is widely distributed with a median value of 0.64 (see Fig. 6a). Targets with a low mean score in the positive set generally have a small class size and low intraclass Tc values, similar to the trend observed in the AUC distribution (see Fig. 5b). Nevertheless, the average score of the positive set of most of the target models (99%) is at least 10 times higher than the average score of the negative set (see Fig. 6b).

각 쿼리 리간드의 가상 선별 결과는 1121 개의 표적 모델을 사용하여 구성된 점수 벡터일 수 있다. 예시적인 이 실시예에 따른 모델의 주요 응용은 쿼리 리간드에 관한 표적들의 순위를 매겨서 사용자들이 합리적인 수의 테스트 표적을 얻을 수 있도록 하는 것이다. 따라서 표적 랭킹의 모델 성능은 교차 검증을 통해 검증될 수 있다. The virtual selection result of each query ligand may be a score vector constructed using 1121 target models. The main application of the model according to this exemplary embodiment is to rank the targets relative to the query ligand so that users can obtain a reasonable number of test targets. Therefore, the model performance of the target ranking can be verified through cross-validation.

성능을 확인하는 일반적인 방법 중 하나는 최상위 순위 표적에 대한 재현율(recall rate)을 사용하는 것이다. 본 발명의 예시적인 실시예에 따른 방법에서, 최상위-k (k는 실행 가능한 표적 개수임)에 순위가 매겨진 표적들은 쿼리 리간드에 대하여 활성 표적으로 인식된다. 재현율은 TP/(TP+FN)로 정의되며, 이는 실제 활성 표적에 대한 검출된 활성 표적의 개수의 비이다. 여기서, TP는 참 양성(true positive)이고, FN는 거짓 음성(false negative)이다. 예컨대 재현율은 5중 교차 검증 과정에서 5 가지 시험 집합에 대해 평균을 내어 구할 수 있다. 재현율이 높다는 것은 활성 표적을 더 적게 놓쳐서 모델의 감도가 더 좋음을 의미한다. One of the common ways to check performance is to use the recall rate for the top-ranked target. In the method according to an exemplary embodiment of the present invention, targets ranked in the highest-k (k is the number of viable targets) are recognized as active targets for the query ligand. Reproducibility is defined as TP/(TP+FN), which is the ratio of the number of detected active targets to the actual active target. Here, TP is true positive and FN is false negative. For example, the recall can be obtained by averaging over five sets of tests during a five-fold cross-validation process. Higher reproducibility means fewer active targets are missed, resulting in better sensitivity of the model.

도 7은 내부 교차 검증에 의해 측정된 다양한 최상위-k 문턱값에 대한 재현율의 변화를 보여준다. 재현율은 상위-k 문턱값(k = 1, 4, 8, 11, 33, 66, 88, 110)의 증가에 따라 증가한다. 그러나 최상위-k 문턱값이 높으면 활성으로 인식되는 많은 표적들이 실제로 비활성 상태일 수 있다. 또한 실험을 통해 확인해야 할 표적의 수가 늘어나면, 그 모델 적용의 효율성이 떨어진다. 실제로 재현율은 상위-4개 문턱값 이후에는 약간만 변경된다. 이 모델에서 상위-4위와 상위-11위 (전체 표적의 1 %) 표적에 대한 재현율은 각각 0.823과 0.871이다. 이를 고려하여, 실용성을 위해 일반적으로 총 표적 중 약 10 표적이 후보 표적으로 제안될 수 있다. 7 shows changes in recall for various top-k thresholds measured by internal cross-validation. The recall increases with increasing the upper-k threshold (k = 1, 4, 8, 11, 33, 66, 88, 110). However, when the top-k threshold is high, many targets that are recognized as active may actually be inactive. Also, as the number of targets to be confirmed through experiments increases, the effectiveness of the model application decreases. In fact, the recall rate changes only slightly after the top-4 thresholds. In this model, the recall rates for the top-4 and top-11 (1% of all targets) targets are 0.823 and 0.871, respectively. In view of this, in general, about 10 targets out of the total targets can be proposed as candidate targets for practicality.

각 표적에 대한 활성 및 비활성 표적을 정의하는 것은 SAR를 성공적으로 모델링하는 데 매우 중요하다. 샘플링 방법(음성-언더샘플링과 양성-오버샘플링)에 따라 각 표적 모델에 대한 활성 및 비활성 집합을 작성하는 두 가지 방법이 제안될 수 있다. 비활성 리간드의 수가 활성 리간드의 개수(임의로 20개러 설정 됨)의 고정된 비에 이를 때까지 표적의 리간드를 샘플링 할 수 있다. 첫째, 다른 샘플링 방법들의 성능들을 상위 1, 4, 8 및 11 표적에 대한 재현율과 전체 AUC 값(표 1)을 계산하여 비교할 수 있다. 음성-언더샘플링 방법이 전반적인 AUC의 측면에서 양성-오버샘플링 방법보다 약간 더 나은 성능을 나타내긴 하지만, 재현율은 양성-언더 샘플링 방법을 사용하여 얻은 것보다 상대적으로 낮다.Defining active and inactive targets for each target is critical to successfully modeling SARs. Depending on the sampling method (negative-undersampling and positive-oversampling), two methods can be proposed to create an active and inactive set for each target model. The ligand of the target can be sampled until the number of inactive ligands reaches a fixed ratio of the number of active ligands (arbitrarily set to 20). First, the performances of different sampling methods can be compared by calculating recall and overall AUC values (Table 1) for the top 1, 4, 8, and 11 targets. Although the negative-undersampling method performs slightly better than the positive-oversampling method in terms of overall AUC, the recall is relatively lower than that obtained using the positive-undersampling method.

샘플링 방법Sampling method 음성-언더샘플링Voice-under sampling 양성-오버샘플링Positive-oversampling 전체 ROC AUCOverall ROC AUC 0.9750.975 0.9560.956 상위 1 재현Top 1 Reproduction 0.5340.534 0.5490.549 상위 4 재현Top 4 Reproduction 0.810.81 0.8220.822 상위 8 재현Top 8 reproduction 0.8490.849 0.8550.855 상위11 재현Top 11 reproduction 0.860.86 0.8650.865

음성-언더샘플링과 양성-오버샘플링 간의 성능 비교Performance comparison between negative-undersampling and positive-oversampling

또한 양성-오버샘플링 방법에서는 AUC 값이 충분히 높고, 표적 예측의 적용을 위해서는 재현율이 더 중요하기 때문에, 일반적인 샘플링 방법으로 양성-오버샘플링 방법을 선택할 수 있다. 양성-오버샘플링 방법은 피어슨의 카이-자성 테스트에서 p-값 = 6.39E-10으로 음성-언더샘플링 방법과 비교하여 더 많은 활성 리간드들을 양성으로 인식한다. 활성 리간드의 수에 대한 비활성 리간드의 수의 비율을 1에서 40 사이에서 바꾸어 가며 다수의 양성-오버샘플링 모델을 구축할 수 있다. In addition, since the AUC value is sufficiently high in the positive-oversampling method and the reproducibility is more important for the application of target prediction, the positive-oversampling method can be selected as a general sampling method. The positive-oversampling method recognizes more active ligands as positive compared to the negative-undersampling method with p-value = 6.39E-10 in Pearson's chi-magnetic test. Multiple positive-oversampling models can be built by varying the ratio of the number of inactive ligands to the number of active ligands between 1 and 40.

비 (비활성/활성)Non (inactive/active) 1One 1010 2020 3030 4040 전체 ROC AUCOverall ROC AUC 0.9610.961 0.9560.956 0.9560.956 0.9550.955 0.9550.955 상위 1 재현Top 1 Reproduction 0.5490.549 0.5490.549 0.5490.549 0.5490.549 0.5490.549 상위 4 재현Top 4 Reproduction 0.8230.823 0.8220.822 0.8220.822 0.8220.822 0.8220.822 상위 8 재현Top 8 reproduction 0.8570.857 0.8560.856 0.8550.855 0.8550.855 0.8550.855 상위11 재현Top 11 reproduction 0.8680.868 0.8660.866 0.8650.865 0.8650.865 0.8650.865

양성-오버샘플링용 리간드 개수의 다른 비율들 간의 성능 비교Performance comparison between different ratios of the number of ligands for positive-oversampling

표 2는 그 모델들 간의 성능 비교를 나타낸다. 결과는 활성 리간드와 비활성 리간드 사이의 균형 잡힌 비율이 모든 문턱값에서 가장 좋은 재현율을 산출함을 보여준다. 전반적인 AUC의 값은 같은 추세를 따른다. 따라서, 활성 리간드의 수에 대한 비활성 리간드의 수의 비는 1로 설정될 수 있다. 피어슨의 카이-자승 테스트는 p 값이 7.09E-3, 7.60E-4, 6.40E-5, 및 1.71E-5인 10, 20, 30 및 40의 비율을 갖는 모델들보다 1의 비율을 가진 모델이 더 많은 실제 양성들을 인식하였음을 보여준다. Table 2 shows the performance comparison between the models. The results show that a balanced ratio between active and inactive ligands yields the best reproducibility at all thresholds. The overall AUC value follows the same trend. Thus, the ratio of the number of inactive ligands to the number of active ligands can be set to 1. Pearson's chi-square test has a ratio of 1 over models with ratios of 10, 20, 30 and 40 with p-values of 7.09E-3, 7.60E-4, 6.40E-5, and 1.71E-5. It shows that the model recognized more real positivity.

표적 모델에 사용된 많은 비활성 리간드는 그 표적에 대해 실험적으로 시험되지 않았다. 그들 중 일부는 활성 리간드로 밝혀 질 수도 있다. 특히, 공지된 활성 리간드와 유사한 리간드들은 활성일 가능성이 더 높다. 경우에 따라 그 모델의 그러한 비활성 리간드로 인해 활성 쿼리가 비활성으로 평가될 수도 있다. Many of the inactive ligands used in the target model have not been tested experimentally for that target. Some of them may also be identified as active ligands. In particular, ligands similar to known active ligands are more likely to be active. In some cases, such an inactive ligand in the model may result in an active query being evaluated as inactive.

이러한 편향(bias)을 감소시키는 방법 중 하나는 활성 리간드와 유사한 비활성 리간드를 어느 정도 제외하는 것이다. 잘 알려진 Tc 유사성은 이 목적을 위한 컷오프로 사용될 수 있다. 도 8은 특정 표적들에 가장 가까운 활성 리간드의 타니모토(Tanimoto) 계수 분포를 나타낸다. 도 8을 참조하면, 특정 표적들 내에서 가장 가까운 활성 리간드들 간의 Tc 유사성을 조사한 결과, 그 쌍의 95%가 0.32 이상의 Tc 유사도를 가지며, 그 쌍의 90%가 0.5 이상의 Tc 유사도를 가진다. One way to reduce this bias is to exclude to some extent inactive ligands that are similar to active ligands. The well-known Tc similarity can be used as a cutoff for this purpose. 8 shows the distribution of Tanimoto coefficients of active ligands closest to specific targets. Referring to FIG. 8, as a result of examining the Tc similarity between active ligands closest to specific targets, 95% of the pair has a Tc similarity of 0.32 or more, and 90% of the pair has a Tc similarity of 0.5 or more.

Tc 컷오프Tc cutoff 0.30.3 0.50.5 컷오프 없음No cutoff 전체 ROC AUCOverall ROC AUC 0.9730.973 0.9660.966 0.9610.961 상위 1 재현Top 1 Reproduction 0.5270.527 0.5380.538 0.5480.548 상위 4 재현Top 4 Reproduction 0.8150.815 0.8230.823 0.8230.823 상위 8 재현Top 8 reproduction 0.8580.858 0.860.86 0.8570.857 상위11 재현Top 11 reproduction 0.870.87 0.8710.871 0.8680.868

비활성 리간드들을 제외하기 위한 다른 Tc 컷오프들 간의 성능 비교Performance comparison between different Tc cutoffs to exclude inactive ligands

다른 Tc 유사성 컷오프 (0.3, 0.5 및 컷오프 없음)에 대해서, 표적들을 식별하기 위한 최적 적합성을 얻기 위해 표적 순위의 재현율들을 조사할 수 있다. 그 결과가 표 3에 정리되어 있다. Tc 컷오프 값을 적용하여 얻은 결과는 Tc 컷오프 0.3 및 0.5를 적용하여 얻은 결과가 다소 모호하다는 것에 비해 우수한 성능을 보였다. AUC 값은 0.3의 Tc 컷오프로부터 증가하지만, 재현율은 0.5의 Tc 컷오프에 대해 더 좋다. For the different Tc similarity cutoffs (0.3, 0.5 and no cutoff), reproducibility of target ranking can be examined to obtain optimal suitability for identifying targets. The results are summarized in Table 3. The results obtained by applying the Tc cutoff values showed superior performance compared to the somewhat ambiguous results obtained by applying the Tc cutoffs 0.3 and 0.5. The AUC value increases from a Tc cutoff of 0.3, but the recall is better for a Tc cutoff of 0.5.

앞서 언급했듯이 재현율은 실용성을 위해 더 식별력이 있어야 하기 때문에 0.5의 Tc 컷오프를 선택할 수 있다. 0.5의 Tc 컷오프를 적용한 모델은 카이-자승 테스트의 p 값이 1.89E-6인 Tc 컷오프 없는 경우에 비해 더 많은 진짜 양성들을 인식하였다. 따라서 벤치마크 모델은 '활성/비활성 비'= 1 및 'Tc 컷오프'= 0.5와 같은 최적화된 매개 변수를 채용하여 양성-오버 샘플링 방법을 사용하여 구축될 수 있다. As mentioned earlier, a Tc cutoff of 0.5 can be selected because the recall must be more discriminating for practicality. The model with a Tc cutoff of 0.5 recognized more true positives than the case without the Tc cutoff with a p value of 1.89E-6 in the chi-square test. Thus, a benchmark model can be built using the positive-oversampling method by employing optimized parameters such as'active/inactive ratio' = 1 and'Tc cutoff' = 0.5.

본 발명자들은 새로운 리간드들에 관한 벤치마크 모델의 성능을 테스트하기 위해 ChEMBL의 새 버전의 데이터를 사용하여 외부 검증 집합을 개발하였다. 벤치마크 모델에서 구현 된 가장 가까운 리간드에 대한 외부 검정 집합의 평균 Tc 유사성 값은 0.55였다. ROC 곡선과 재현율을 사용하여 외부 검증 집합의 가상 선별 결과를 평가하였다. 도 9는 외부 유효성 검증 집합의 결과를 선별하기 위한 ROC 곡선을 나타낸다. ROC 곡선은 알려진 활성 데이터를 양성 집합으로 정의하여 그려졌으며, ROC 곡선 아래의 면적은 0.89이다. 이 값은 교차 유효성 검증을 통해 얻은 AUC(0.97)에 비해 낮다. 이는 주로 더 많은 수의 활성 상호작용들이 0의 점수로 등급이 저하되기 때문이다. ROC 곡선은 활성 리간드의 약 20%의 점수가 0 인 반면, 비활성 리간드의 93%의 점수는 0이다. 점수가 0인 활성 리간드들은 모델에 의해 설명되지는 않지만 외부 집합에 포함되는 것이다. The inventors developed an external validation set using data from a new version of ChEMBL to test the performance of a benchmark model on new ligands. The average Tc similarity value of the set of external tests for the nearest ligand implemented in the benchmark model was 0.55. The results of hypothetical screening of the external validation set were evaluated using the ROC curve and recall. 9 shows an ROC curve for selecting the results of an external validation set. The ROC curve was plotted by defining the known activity data as a positive set, and the area under the ROC curve was 0.89. This value is lower compared to the AUC (0.97) obtained through cross-validation. This is primarily because a greater number of active interactions are graded down to a score of zero. The ROC curve has a score of 0 for about 20% of the active ligand, while the score for 93% of the inactive ligand is zero. Active ligands with a score of 0 are not explained by the model, but are included in the outer set.

그럼에도 불구하고 그 결과는 벤치마크 모델의 성능이 외부 검증에 대해 여전히 약 0.9의 값으로 높은 것을 나타낸다. 외부 검증의 성능을 검증하기 위해 최상위-k 표적들에 대한 재현율도 계산하였다. 상위 11개 (1 %) 표적의 경우, 벤치마크 모델을 사용한 외부 집합의 재현율은 67.6 %였다. 상위 33개 (3%) 표적의 경우, 재현율은 73.9 %이다. 이 결과는 Alexise Koutsoukas 등이 Parzen-Rosenblatt Window 기반의 Naive Bayesian 모델을 사용하여 측정한 성능보다 약간 더 좋았으며, 결과는 상위 1%와 3%의 표적들에 대하여 66 %와 73.9 %였다. Nevertheless, the results indicate that the benchmark model's performance is still high with a value of about 0.9 for external verification. In order to verify the performance of the external verification, recall for the top-k targets was also calculated. For the top 11 (1%) targets, the recall of the outer set using the benchmark model was 67.6%. For the top 33 (3%) targets, the recall is 73.9%. This result was slightly better than the performance measured by Alexise Koutsoukas et al. using the Parzen-Rosenblatt Window-based Naive Bayesian model, and the results were 66% and 73.9% for the top 1% and 3% targets.

예시적인 실시예에 따른 방법을 사용하여 얻은 재현율은 Laplacian 수정 Naㅿve Bayes (상위 1 %는 63.3 %, 상위 3 %는 72.1 %) 또는 Bernoulli Naㅿve Bayes (상위 1 %는 62.5 %, 상위 3 %는 72.5 %)와 같은 다른 Naㅿve Bayes 모델을 사용하여 얻은 재현율보다 우수하다. 이들 테스트에 사용된 WOMBAT 외부 집합은 그 트레이닝 집합의 평균 Tc 값이 0.58인 반면, 본 발명의 예시적인 실시예의 테스트에 사용된 외부 집합의 값은 0.55로, 문제의 어려움이 증가한다는 것을 나타낸다. 따라서 본 발명의 예시적인 실시예에 따른 방법의 성능이 종래의 방법들의 성능보다 우수하다고 말할 수 있다. 또한 현재의 벤치마크 모델은 개별 표적 모델의 단순한 모음이므로 추가 수정을 통해 결과가 개선될 것으로 기대한다.Reproducibility obtained using the method according to an exemplary embodiment is Laplacian modified Nave Bayes (top 1% is 63.3%, top 3% is 72.1%) or Bernoulli Nave Bayes (top 1% is 62.5%, top 3). % Is better than the recall obtained using other Nave Bayes models, such as 72.5%). The WOMBAT outer set used in these tests has an average Tc value of 0.58 of the training set, while the value of the outer set used in the test of the exemplary embodiment of the present invention is 0.55, indicating that the difficulty of the problem increases. Therefore, it can be said that the performance of the method according to the exemplary embodiment of the present invention is superior to that of the conventional methods. In addition, since the current benchmark model is a simple collection of individual target models, we expect the results to be improved through further modifications.

예시적인 실시예에 따르면, RF-QSAR라는 표적 예측용 웹 서버가 제공될 수 있다. 사용자는 RF-QSAR을 사용하여 한 번에 여러 쿼리 리간드의 표적들을 식별할 수 있다. 각 리간드는 1121 개의 표적 모델에 의해 평가되고 리간드들과 표적들 간의 점수 매트릭스가 작성될 수 있다. 점수 행렬은 또한 확률 행렬로 변환되며, 여기서 각 셀은 리간드-표적 상호작용이 활성화될 확률을 나타낸다. 사용자가 다른 발명을 위해 점수 행렬을 더 활용할 수 있도록 행렬을 링크에 의해 다운로드 할 수 있다. 예를 들어, 표적 모델로부터의 점수는 리간드의 프로파일로서 사용될 수 있고, 그 리간드의 독성은 그 프로파일에 의해 예측될 수 있다. According to an exemplary embodiment, a web server for target prediction called RF-QSAR may be provided. Users can use RF-QSAR to identify targets of multiple query ligands at once. Each ligand is evaluated by a 1121 target model and a scoring matrix between ligands and targets can be created. The score matrix is also transformed into a random matrix, where each cell represents a probability that a ligand-target interaction will be activated. The matrix can be downloaded by link so that the user can further utilize the score matrix for other inventions. For example, a score from a target model can be used as a profile of a ligand, and the toxicity of that ligand can be predicted by that profile.

예시적인 실시예에 따르면, 서버는 리간드와 상호 작용할 가능성에 따라 순위가 매겨진 상위-k 표적을 제공할 수 있다. k 값과 검색할 표적 클래스는 표적 예측의 목적에 따라 사용자가 결정할 수 있다. 상위 순위의 표적들에 대해 Uniprot ID, 표적 클래스, 시퀀스, 도메인 및 유사한 리간드를 포함한 정보 및 상호 참조가 제공될 수 있다. 순위가 매겨진 표적들의 각 표적 클래스의 비율도 표시되어 사용자가 쿼리 리간드에 관한 일반적인 표적 클래스를 추정할 수 있다. According to an exemplary embodiment, the server may provide top-k targets ranked according to their likelihood of interacting with a ligand. The value of k and the target class to be searched can be determined by the user according to the purpose of target prediction. Information and cross-references including Uniprot ID, target class, sequence, domain, and similar ligands can be provided for higher-ranking targets. The proportion of each target class of the ranked targets is also displayed, allowing the user to estimate a general target class for the query ligand.

위에서도 언급하였듯이, 이상에서 설명한 예시적인 실시예에 따른 다중 표적 예측 방법은 다양한 컴퓨팅 장치에 의해 실행될 수 있는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함한 형태(이하 '소프트웨어'로 통칭함)로 구현될 수 있다. 상기 소프트웨어는 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 또는 컴퓨터 판독 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 컴퓨터 프로그램은 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. As mentioned above, the multi-target prediction method according to the exemplary embodiment described above uses a computer program, code, instruction, or a combination of one or more of them that can be executed by various computing devices. It can be implemented in a form including (hereinafter referred to as'software'). The software may configure the processing unit to operate as desired or may instruct the processing unit independently or collectively. Software and/or data may be interpreted by a processing device or to provide instructions or data to a processing device, of any type of machine, component, physical device, virtual equipment, or computer-readable storage medium. Or may be permanently or temporarily embodyed in the device. Computer programs may be distributed over networked computer systems and stored or executed in a distributed manner.

소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Software and data may be stored on one or more computer-readable recording media. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -A hardware device specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operation of the embodiment, and vice versa.

위에서 설명한 것과 같은 특징이 반영된 알고리즘을 적용하여 약물 표적 예측 서버를 개발할 수 있다. 도 10은 본 발명의 예시적인 실시예에 따른 RF-QSAR 모델 기반 다중 표적 예측 방법이 웹 서버 형태의 약물표적 예측서버(100)에 구현하여 인터넷(150)을 통해 사용자의 클라이언트 단말기(200)의 쿼리에 대한 웹서비스를 제공하기 위한 시스템(10)의 구성을 나타낸다. 도 11은 도 10의 약물표적 예측서버(100)가 사용자의 클라이언트 단말기(200)의 쿼리에 대한 응답으로 제공하는 결과 페이지를 예시한다. 도 11은 도 10의 웹 서비스 시스템이 사용자의 클라이언트 단말기의 쿼리에 대한 응답으로 제공하는 결과 페이지를 예시한다. A drug target prediction server can be developed by applying an algorithm reflecting the features described above. FIG. 10 is a diagram of a multi-target prediction method based on an RF-QSAR model according to an exemplary embodiment of the present invention implemented in a drug target prediction server 100 in the form of a web server, and It shows the configuration of the system 10 for providing a web service for a query. 11 illustrates a result page provided by the drug target prediction server 100 of FIG. 10 in response to a query of a user's client terminal 200. 11 illustrates a result page provided by the web service system of FIG. 10 in response to a query of a user's client terminal.

도 10과 11을 참조하면, RF-QSAR 모델을 적용한 약물 표적 예측 서버(100)는 인터넷(150)을 통해 사용자의 클라이언트 단말기(200)에 대한 웹 서비스를 제공하는 웹 서버 형태로 구성될 수 있다. 약물 표적 예측 서버(100)는 사용자 인터페이스 화면을 클라이언트 단말기(200)에게 제공할 수 있다. 사용자는 표적을 예측하고자 하는 약물의 구조 정보 즉, 쿼리 리간드 정보를 그 사용자 인터페이스 화면을 통해 입력할 수 있다. 약물 표적 예측 서버(100)는 짧은 시간의 연산을 수행하여 예측되는 상위 표적 리스트 결과를 생성할 수 있다. 그 예측된 표적 리스트는 예컨대 웹 페이지 형태로 생성되어 클라이언트 단말기(200)에 제공될 수 있다. 그 웹 페이지를 통해 사용자는 자신이 입력한 약물 구조의 예측된 표적 리스트를 확인할 수 있다. 사용자는 "Probability" 열에서 각 표적과 입력 약물의 결합 확률을 확인할 수 있고, 그 밖의 표적에 관한 다양한 생물학적 정보를 다른 열에서 확인할 수 있다. 사용자는 자신의 편의에 따라 1,121개 표적 가운데 원하는 표적들을 제외하고 예측 결과를 확인할 수 있다. 또한 확인하고자 하는 상위 표적의 개수를 조정하여 목적에 따라 서로 다른 길이의 표적 리스트를 얻을 수 있다.10 and 11, the drug target prediction server 100 to which the RF-QSAR model is applied may be configured in the form of a web server that provides a web service to the user's client terminal 200 through the Internet 150. . The drug target prediction server 100 may provide a user interface screen to the client terminal 200. The user can input the structure information of the drug for which the target is to be predicted, that is, query ligand information, through the user interface screen. The drug target prediction server 100 may generate a predicted upper target list result by performing an operation for a short time. The predicted target list may be generated in the form of, for example, a web page and provided to the client terminal 200. Through the web page, the user can check the list of predicted targets of the drug structure entered by the user. The user can check the binding probability of each target and the input drug in the "Probability" column, and various biological information about other targets in another column. The user can check the prediction result by excluding desired targets among 1,121 targets at their convenience. In addition, you can obtain a list of targets of different lengths according to the purpose by adjusting the number of targets to be checked.

단백질 시퀀스를 사용하여 선호하는 표적을 검색하고 다른 쿼리 리간드에서 반복적으로 발견되는 공통 표적을 강조 표시하는 것과 같은 몇 가지 새로운 기능을 약물 표적 예측 서버(100)에 추가할 수도 있다.Several new functions can also be added to the drug target prediction server 100, such as searching for preferred targets using protein sequences and highlighting common targets repeatedly found in different query ligands.

이상에서는 랜덤 포레스트 알고리즘을 사용하여 ChEMBL 데이터베이스에서 검색된 인간 생체 활성 데이터로 훈련된 1121 개의 개별 표적 모델을 포함하는 리간드 기반 SAR 모델을 설명하였다. 데이터 전처리에 사용된 샘플링 방법과 매개 변수는 상위 순위 표적들의 재현율을 극대화하기 위해 5중(5-fold) 교차 유효성 검사를 통해 신중하게 최적화될 수 있다. 모든 표적 모델의 활성 데이터는 활성 리간드의 수에 대한 비활성 리간드의 수의 비율이 1로 설정될 때까지 오버 샘플링될 수 있다. 또한, 0.5보다 높은 Tc 컷오프를 갖는 활성 리간드와 유사한 비활성 리간드는 모델 제작 과정에서 제외될 수 있다. 이 과정을 통해 본 발명의 실시예에 따른 모델은 클래스 또는 표적 간의 불균형을 극복하고 비활성 리간드들의 모호성을 피할 수 있다. 결과 표적 모델은 리간드의 활성을 예측하는 것뿐만 아니라 순위가 부여된 표적리스트를 제공하는 쿼리 리간드의 표적 예측 (target fishing)를 위해 이용될 수 있다. In the above, a ligand-based SAR model including 1121 individual target models trained with human bioactivity data retrieved from the ChEMBL database using a random forest algorithm has been described. The sampling method and parameters used for data preprocessing can be carefully optimized through 5-fold cross validation to maximize the reproducibility of the top-ranked targets. Activity data of all target models can be oversampled until the ratio of the number of inactive ligands to the number of active ligands is set to 1. In addition, inactive ligands similar to active ligands having a Tc cutoff higher than 0.5 can be excluded from the modeling process. Through this process, the model according to the embodiment of the present invention can overcome the imbalance between classes or targets and avoid ambiguity of inactive ligands. The resulting target model can be used not only for predicting the activity of the ligand, but also for target fishing of the query ligand, providing a ranked list of targets.

각 표적 모델의 성능은 개별 ROC 곡선 및 평균 점수를 사용하여 평가되며, 이는 활성 리간드와 비활성 리간드를 구별하는 강도를 나타낼 수 있다. 표적 순위의 성능은 최상위-k 표적들의 재현률을 사용하여 검증될 수 있다. 외부 검증을 통해 재현율은 상위 1 % 표적에서 67.6 %, 상위 3 % 표적에서 73.9 %로 얻어졌다. 이 결과는 본 발명에서 얻은 성능이 가장 높다는 것을 보여준다. 특히 훈련 집합과의 평균 Tc 유사성이 0.55 인 비교적 어려운 테스트 집합임에도 성능이 가장 높다.The performance of each target model is assessed using an individual ROC curve and average score, which can indicate the strength that distinguishes active and inactive ligands. The performance of the target ranking can be verified using the recall of the top-k targets. Through external verification, recall was obtained with 67.6% in the top 1% target and 73.9% in the top 3% target. This result shows that the performance obtained in the present invention is the highest. In particular, the performance is highest even though it is a relatively difficult test set with an average Tc similarity of 0.55 with the training set.

프로세스들은 외부 데이터 집합을 사용하는 확률에 더 맞춰진 통합 채점 방식을 사용하여 검증될 수 있다. RF-QSAR의 웹 인터페이스는 사용하기 쉽도록 설계되어 직관적인 결과 페이지를 제공할 수 있다. 사용자는 여러 쿼리 리간드를 제출하고 한 번에 결과를 확인할 수 있다. 결과 페이지에는 예상 상호 작용 가능성이 있는 순위가 매겨진 표적 목록이 표시될 수 있다. 다양한 정보와 상호 참조가 각 표적에 제공될 수 있다. Processes can be validated using an integrated scoring scheme that is more tailored to the probabilities of using an external data set. RF-QSAR's web interface is designed to be easy to use and can provide an intuitive result page. Users can submit multiple query ligands and check the results at once. The results page may display a ranked list of targets that are likely to interact with each other. A variety of information and cross-references can be provided to each target.

그 사이트의 특징 중 하나는 클래스를 기준으로 표적을 필터링하는 것이다. 이 함수를 사용하여 사용자는 표적 클래스를 지정하여 클래스를 검색하거나 제거할 수 있다. 사용자들은 표적 예측, 리간드 비교, 프로필 작성 등 다양한 목적으로 서버를 활용할 수 있다.One of the features of the site is filtering targets by class. Using this function, the user can search or remove a class by specifying the target class. Users can use the server for a variety of purposes, including target prediction, ligand comparison, and profile creation.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although the above has been described with reference to preferred embodiments of the present invention, those skilled in the art will be able to variously modify and change the present invention without departing from the spirit and scope of the present invention described in the following claims. You will understand that you can.

본 발명은 신약을 개발하는 데 이용할 수 있다. 특히, 개발 대상 약물의 표적을 효과적이고 정확하게 예측하는 데 활용될 수 있다.The present invention can be used to develop new drugs. In particular, it can be used to effectively and accurately predict the target of a drug to be developed.

10: 랜덤 포레스트 모델 기반의 약물의 다중 표적 예측 서비스 시스템
100: 다중 표적 예측 서버
200: 클라이언트 단말기
10: Random forest model-based drug multi-target prediction service system
100: multi-target prediction server
200: client terminal

Claims (15)

컴퓨터 장치에서 실행되는 컴퓨터 프로그램을 이용하여 인체에 존재하는 다수의 표적들에 대한 약물의 결합을 예측하는 방법으로서,
상기 표적들과 결합하는 약물의 구조 정보를 기계 학습하여 각 표적 별로 독립적인 랜덤 포레스트(Random Forest) 예측 모델을 생성하는 단계;
예측대상 약물의 구조 정보를 각 랜덤 포레스트 예측 모델에 입력하는 단계;
각 표적 별 랜덤 포레스트 예측모델에서, 상기 표적들 각각에 대한 구조 정보가 입력된 상기 예측대상 약물의 결합 가능성을 각 표적별 표적 점수로 생성하는 단계;
각 표적 별 랜덤 포레스트 예측 모델이 상기 각 표적별 표적 점수를 약물과 표적이 상호작용할 확률인 약물-표적 결합 확률로 전환하는 단계; 및
상기 약물-표적 결합 확률에 기초하여 소정의 결합 확률값 이상을 갖는 표적들을 선별하여 상기 예측대상 약물의 예상 표적 리스트로 반환하는 단계를 포함하는 것을 특징으로 하는 랜덤 포레스트 예측 모델을 활용한 약물의 다중 표적 예측 방법.
As a method of predicting the binding of a drug to a plurality of targets present in the human body by using a computer program executed in a computer device,
Generating an independent random forest prediction model for each target by machine learning the structure information of the drug binding to the targets;
Inputting structural information of the predicted drug into each random forest prediction model;
Generating, in a random forest prediction model for each target, a binding probability of the predicted drug, into which structural information for each of the targets, is input, as a target score for each target;
Converting, by the random forest prediction model for each target, the target score for each target into a drug-target binding probability, which is a probability of interaction between the drug and the target; And
Multiple targets of a drug using a random forest prediction model, comprising the step of selecting targets having a predetermined binding probability value or more based on the drug-target binding probability and returning the predicted target list of the predicted drug. Prediction method.
제1항에 있어서, 상기 '랜덤 포레스트(Random Forest) 예측 모델을 생성하는 단계'는 상기 기계 학습을 하기 전에 학습할 데이터를 최적화하여 각 랜덤 포레스트(Random Forest) 예측 모델의 정확도를 높이고, 표적들 간의 편차(bias)를 줄이는 전처리를 수행하는 단계를 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.The method of claim 1, wherein the'generating a random forest prediction model' increases the accuracy of each random forest prediction model by optimizing the data to be trained before the machine learning, and targets A method for predicting multiple targets of a drug, comprising performing a pretreatment to reduce a liver bias. 제2항에 있어서, 상기 전처리를 수행하는 단계는 비활성 리간드에 대한 활성 리간드의 비가 특정 값에 도달할 때까지 비활성 리간드의 부분 집합만을 무작위로 선택하는 음성-언더 샘플링 방법(negative-undersampling method)을 사용하여 비활성 리간드에 대한 활성 리간드의 비의 과도한 불균형을 해소하는 단계를 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.The method of claim 2, wherein the performing of the pretreatment comprises a negative-undersampling method in which only a subset of the inactive ligands is randomly selected until the ratio of the active ligand to the inactive ligand reaches a specific value. A method for predicting multiple targets of a drug comprising the step of resolving an excessive imbalance in the ratio of active ligands to inactive ligands by using. 제2항에 있어서, 상기 전처리를 수행하는 단계는 비활성 리간드에 대한 활성 리간드의 비가 특정 값에 도달할 때까지 활성 리간드에 더 큰 가중치를 부여하여 활성 리간드를 상대적으로 더 많이 선택하는 양성-오버샘플링 방법을 사용하여 비활성 리간드에 대한 활성 리간드의 비의 과도한 불균형을 해소하는 단계를 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.The method of claim 2, wherein the step of performing the pretreatment comprises assigning a greater weight to the active ligand until the ratio of the active ligand to the inactive ligand reaches a specific value, thereby selecting relatively more active ligands. A method for predicting multiple targets of a drug, comprising the step of resolving an excessive imbalance in the ratio of active ligands to inactive ligands using a method. 제2항에 있어서, 상기 전처리를 수행하는 단계는 활성 및 비활성 리간드의 확장 연결성 지문(Extended-Connectivity Fingerprints: ECFP)들간의 타니모토 계수(Tanimoto coefficient) Tc 유사성을 계산함으로써, 특정 임계값과 유사한 활성 데이터를 갖는 리간드들은 비활성 리간드에서 제외시키는 처리를 수행하는 단계를 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.The method of claim 2, wherein the performing of the pre-processing comprises calculating a Tanimoto coefficient Tc similarity between extended-connectivity fingerprints (ECFPs) of active and inactive ligands, and thus an activity similar to a specific threshold. A method for predicting multiple targets of a drug, comprising the step of performing a treatment in which the ligands having the data are excluded from the inactive ligands. 제1항에 있어서, 상기 '표적 점수로 생성하는 단계'는 상기 표적들 중에서 특정 표적을 결과에서 제외하는 표적 필터링을 수행하는 단계를 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.The method of claim 1, wherein the'generating as a target score' comprises performing target filtering to exclude specific targets from the results among the targets. 제1항에 있어서, 상기 다중 표적 예측 방법의 성능 검증을 위해 외부 테스트 집합을 이용하여 상기 다중 표적 예측 방법의 재현율(Recall rate)을 평가하는 단계를 더 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.The multi-target prediction of a drug according to claim 1, further comprising evaluating a recall rate of the multi-target prediction method using an external test set to verify the performance of the multi-target prediction method. Way. 제1항에 있어서, 상기 각 표적별 랜덤 포레스트 예측모델은 1,121개의 표적들 각각과 상기 예측대상 약물 간의 결합 가능성을 길이가 1,121인 점수 데이터로 표현하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.The method of claim 1, wherein the random forest prediction model for each target expresses the possibility of binding between each of 1,121 targets and the predicted drug as score data having a length of 1,121. 제1항에 있어서, 상기 각 표적별 표적 점수는 외부 검증 집합으로부터 획득한 평가 데이터의 점수를 기반으로 하여 상기 약물-표적 결합 확률로 전환되는 것을 특징으로 하는 랜덤 포레스트 예측 모델을 활용한 약물의 다중 표적 예측 방법.The method of claim 1, wherein the target score for each target is converted into the drug-target binding probability based on a score of evaluation data obtained from an external validation set. Target prediction method. 제1항에 있어서, 상기 입력하는 단계는 웹서버 컴퓨터를 통해 사용자 인터페이스를 제공하여 사용자로 하여금 클라이언트 단말기에 표시되는 상기 사용자 인터페이스를 통해 예측 대상 약물의 쿼리 리간드의 구조 정보를 입력하게 하는 단계를 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.The method of claim 1, wherein the inputting comprises providing a user interface through a web server computer to allow a user to input structure information of a query ligand of a drug to be predicted through the user interface displayed on a client terminal. A method for predicting multiple targets of a drug, characterized in that. 제10항에 있어서, 상기 웹서버 컴퓨터가 상기 예상 표적 리스트에 관한 정보를 웹 페이지에 담아 상기 클라이언트 단말기로 제공하는 단계를 더 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.The method of claim 10, further comprising the step of providing, by the web server computer, information on the expected target list in a web page to the client terminal. 제1항에 있어서, 다양한 소스의 약물-표적 상호작용에 관한 생체 활성 데이터(Bioactivity data)로부터 특정 표적들 각각과 결합하는 약물의 구조 정보들을 수집하는 단계를 더 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.The method of claim 1, further comprising the step of collecting structural information of a drug binding to each of specific targets from bioactivity data on drug-target interactions from various sources. Target prediction method. 제12항에 있어서, 상기 랜덤 포레스트(Random Forest) 예측 모델은 1,121개의 표적에 대한 ChEMBL 데이터베이스의 약물 활성 데이터를 이용하여 구축되는 것을 특징으로 하는 약물의 다중 표적 예측 방법.The method of claim 12, wherein the random forest prediction model is constructed using drug activity data of a ChEMBL database for 1,121 targets. 제1항 내지 제13항 중 어느 한 항에 기재된 약물의 다중 표적 예측 방법을 수행하기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 실행가능 프로그램.A computer-executable program stored in a computer-readable recording medium to perform the method for predicting multiple targets of a drug according to any one of claims 1 to 13. 제1항 내지 제13항 중 어느 한 항에 기재된 약물의 다중 표적 예측 방법을 수행하기 위한 컴퓨터 실행가능 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.A computer-readable recording medium in which a computer executable program for performing the method for predicting multiple targets of a drug according to any one of claims 1 to 13 is recorded.
KR1020180109415A 2018-09-13 2018-09-13 Method of predicting multiple targets of drug utilizing random forest QSAR models KR102228552B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180109415A KR102228552B1 (en) 2018-09-13 2018-09-13 Method of predicting multiple targets of drug utilizing random forest QSAR models

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180109415A KR102228552B1 (en) 2018-09-13 2018-09-13 Method of predicting multiple targets of drug utilizing random forest QSAR models

Publications (2)

Publication Number Publication Date
KR20200030769A KR20200030769A (en) 2020-03-23
KR102228552B1 true KR102228552B1 (en) 2021-03-16

Family

ID=69998708

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180109415A KR102228552B1 (en) 2018-09-13 2018-09-13 Method of predicting multiple targets of drug utilizing random forest QSAR models

Country Status (1)

Country Link
KR (1) KR102228552B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240048704A (en) 2022-10-07 2024-04-16 가천대학교 산학협력단 Apparatus for predicting drug-target interaction and method for predicting drug-target interaction using the same

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111755081A (en) * 2020-05-06 2020-10-09 北京化工大学 Method for generating and screening MOFs (metal-organic frameworks) with high methane adsorption rate
CN112133367A (en) * 2020-08-17 2020-12-25 中南大学 Method and device for predicting interaction relation between medicine and target spot
CN114999579A (en) * 2022-06-27 2022-09-02 北京理工大学 Method for screening compound molecular descriptors and determining value range of compound molecular descriptors

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A.C.A.Nascimento 외, BMC Bioinformatics, 2016, 17:46.
A.Ezzat 외, BMC Bioinformatics, 2016, 17(Suppl 19):509, pp.269-509.
R.S.Olayan 외, Bioinformatics, 34(7), 2018, pp.1164-1173.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240048704A (en) 2022-10-07 2024-04-16 가천대학교 산학협력단 Apparatus for predicting drug-target interaction and method for predicting drug-target interaction using the same

Also Published As

Publication number Publication date
KR20200030769A (en) 2020-03-23

Similar Documents

Publication Publication Date Title
KR102228552B1 (en) Method of predicting multiple targets of drug utilizing random forest QSAR models
Reker et al. Active learning for computational chemogenomics
Brown Classifiers and their metrics quantified
Lee et al. Utilizing random Forest QSAR models with optimized parameters for target identification and its application to target-fishing server
Hassan et al. Evaluation of computational techniques for predicting non-synonymous single nucleotide variants pathogenicity
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
Jiang et al. Predicting drug− disease associations via sigmoid kernel-based convolutional neural networks
Dou et al. A comprehensive review of the imbalance classification of protein post-translational modifications
KR102542666B1 (en) Method for predicting drug-target binding affinity using similarity based convolutional neural network and system therefor
Raza et al. A comprehensive evaluation of machine learning techniques for cancer class prediction based on microarray data
Hejase et al. Improving drug sensitivity prediction using different types of data
US20190080057A1 (en) Toxicity or adverse effect of a substance predicting automated system and method of training thereof
Pham et al. Predicting hospital readmission patterns of diabetic patients using ensemble model and cluster analysis
Bornot et al. A new prediction strategy for long local protein structures using an original description
Long et al. A model population analysis method for variable selection based on mutual information
Lorena et al. Evaluation of noise reduction techniques in the splice junction recognition problem
Verma et al. Classification of drug molecules for oxidative stress signalling pathway
Kang et al. Detecting the presence and absence of causal relationships between expression of yeast genes with very few samples
Wu et al. Integrating diverse biological and computational sources for reliable protein-protein interactions
Max Kotlyar et al. Predicting protein-protein interactions by association mining
US11742081B2 (en) Data model processing in machine learning employing feature selection using sub-population analysis
Gecili et al. Bayesian regularization for a nonstationary Gaussian linear mixed effects model
Webel et al. Mass spectrometry-based proteomics imputation using self supervised deep learning
Mondal Algorithms for data mining and bio-informatics
Rider et al. A supervised learning approach to the ensemble clustering of genes

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant