KR102530114B1 - Method, System, and Computer-Readable Medium for Predicting Side Effects of Drugs based on Similarity Measurement - Google Patents
Method, System, and Computer-Readable Medium for Predicting Side Effects of Drugs based on Similarity Measurement Download PDFInfo
- Publication number
- KR102530114B1 KR102530114B1 KR1020200126528A KR20200126528A KR102530114B1 KR 102530114 B1 KR102530114 B1 KR 102530114B1 KR 1020200126528 A KR1020200126528 A KR 1020200126528A KR 20200126528 A KR20200126528 A KR 20200126528A KR 102530114 B1 KR102530114 B1 KR 102530114B1
- Authority
- KR
- South Korea
- Prior art keywords
- similarity
- drug
- information
- predicted
- deriving
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Pathology (AREA)
- Medicinal Chemistry (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Toxicology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- Pharmacology & Pharmacy (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Analytical Chemistry (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
본 발명은 유사도 측정에 기반한 약물의 부작용을 예측하는 방법, 시스템, 및 컴퓨터-판독가능 매체에 관한 것으로서, 더욱 상세하게는 예측대상약물에 대해 예측대상부작용의 발현가능성을 예측하기 위하여 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 유사도를 도출하고, 예측대상부작용과 예측대상약물에 대해 알려져 있는 기존부작용 사이의 유사도를 도출하여, 학습된 추론모델부에 유사도에 기반한 정보를 입력하여 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측하는, 유사도 측정에 기반한 약물의 부작용을 예측하는 방법, 시스템, 및 컴퓨터-판독가능 매체에 관한 것이다.The present invention relates to a method, system, and computer-readable medium for predicting side effects of drugs based on similarity measurement, and more particularly, in order to predict the possibility of occurrence of a predicted side effect for a predicted drug, a predicted side effect is Derive the similarity between a plurality of existing drugs known to be It relates to a method, system, and computer-readable medium for predicting side effects of a drug based on similarity measurement, predicting the possibility of occurrence of a predicted target side effect for a drug.
Description
본 발명은 유사도 측정에 기반한 약물의 부작용을 예측하는 방법, 시스템, 및 컴퓨터-판독가능 매체에 관한 것으로서, 더욱 상세하게는 예측대상약물에 대해 예측대상부작용의 발현가능성을 예측하기 위하여 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 유사도를 도출하고, 예측대상부작용과 예측대상약물에 대해 알려져 있는 기존부작용 사이의 유사도를 도출하여, 학습된 추론모델부에 유사도에 기반한 정보를 입력하여 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측하는, 유사도 측정에 기반한 약물의 부작용을 예측하는 방법, 시스템, 및 컴퓨터-판독가능 매체에 관한 것이다.The present invention relates to a method, system, and computer-readable medium for predicting side effects of drugs based on similarity measurement, and more particularly, in order to predict the possibility of occurrence of a predicted side effect for a predicted drug, a predicted side effect is Derive the similarity between a plurality of existing drugs known to be It relates to a method, system, and computer-readable medium for predicting side effects of a drug based on similarity measurement, predicting the possibility of occurrence of a predicted target side effect for a drug.
지난 수십 년간 제약산업에서 개발된 대부분의 신약 후보 약물들은 약물들이 야기할 수 있는 부작용 때문에 미국 식품의약국(FDA)를 비롯한 각국의 승인을 받지 못했기 때문에 연구개발의 성과가 저조했다. 부작용을 야기할 수 있고, 나아가 약물의 개발 실패를 초래할 수 있는 신약 후보 약물이 타겟 외의 요소에 영향을 미치는 활동들을 약물 개발 과정에서 찾아내는 것은 어려운 일이다. 이와 같이, 치명적인 부작용은 대부분 임상 전이나 임상 시험에서 확인되지만, 일부는 약물의 승인 후에 모니터링 과정에서 발견되기도 한다. 이러한 신약의 잠재적인 부작용에 대한 불확실성은 제약회사뿐만 아니라 건강상의 위험을 받을 수 있는 환자들에게도 중요한 문제가 되고 있다.Most of the new drug candidates developed in the pharmaceutical industry over the past decades have not been approved by the US Food and Drug Administration (FDA) or other countries because of the side effects that the drugs can cause, so R&D performance has been poor. In the drug development process, it is difficult to find activities in which a new drug candidate drug that may cause side effects and further cause drug development failure affects factors other than the target. As such, most of the fatal side effects are identified in preclinical or clinical trials, but some are also discovered in the monitoring process after drug approval. Uncertainty about the potential side effects of these new drugs is an important issue not only for pharmaceutical companies, but also for patients who may be at risk for their health.
한편, 종래의 약물의 부작용을 예측하기 위해 사용되는 방법은 유사한 약물들은 약물의 구조나, 약물의 타겟과 같은 화학적, 생물학적 특성 면에서 비슷한 성질을 갖는다고 가정하는 것을 기반으로 하고 있다. 따라서, 특정 약물과 타 약물들과의 구조 및 타겟의 유사성을 계산하고, 이를 기반으로 특정 약물의 부작용을 예측하거나, 혹은 약물의 표현형(Phenotypic)정보의 유사성을 더 고려하여 약물의 부작용을 예측하는 방법들이 제시되었다.On the other hand, conventional methods used to predict side effects of drugs are based on the assumption that similar drugs have similar properties in terms of chemical and biological properties, such as drug structures and drug targets. Therefore, the structure and target similarity between a specific drug and other drugs is calculated, and based on this, the side effects of a specific drug are predicted, or the side effects of a drug are predicted by considering the similarity of phenotypic information of the drug. methods have been presented.
그러나 종래의 약물의 화학적, 생물학적 특성을 중점적으로 고려하여 약물의 부작용을 예측하기 위한 방법들은, 인체에 투약되는 경우에 약물은 대사변환이나 약동학적 변화와 같은 복합적인 영향을 받기 때문에, 약물의 부작용을 예측하기 위해 단순히 약물의 화학적, 생물학적 특성만을 고려하는 것은 예측이 어려울뿐더러 예측의 정확성도 낮을 수밖에 없다. 따라서, 약물이 야기하는 부작용을 예측하기 위하여 종래의 약물의 구조나 약물의 타겟만을 고려하는 것 외에도 다양한 측면으로 약물의 유사도를 측정하여 더욱 부작용의 발현가능성의 예측을 용이하게 하고, 예측 정확성 또한 향상시킬 수 있는 새로운 방법의 연구가 필요한 상황이다.
구체적으로, 상기와 같은 기술 분야에 대한 종래의 기술 가운데, 대한민국 공개특허 제10-2022-0117729호에서는, 머신러닝 알고리즘을 이용하여, 약물의 알려지지 않은 부작용을 탐지하는 구성에 대하여 기재하고 있으나, 해당 기술의 경우, 전술한 바와 같이, 자발적 이상사례보고 자료에 포함된 최소한의 정보를 이용하여 약물의 부작용을 탐지하는 구성에 해당하며, 약물의 구조 및 타겟을 포함하는 다양한 측면으로 약물의 유사도를 측정하여 부작용의 발현가능성의 예측을 용이하게 하는 구성에 대해서는 기재하고 있지 않으므로, 다양한 측면의 유사도측정에 기반한 약물의 부작용을 예측하는 종래의 기술은 전무한 상태이다.However, conventional methods for predicting drug side effects by focusing on the chemical and biological properties of drugs, when administered to the human body, are subject to complex effects such as metabolic transformation or pharmacokinetic changes, so side effects of drugs Simply considering only the chemical and biological properties of a drug to predict the drug is difficult to predict and the accuracy of the prediction is inevitably low. Therefore, in order to predict side effects caused by drugs, in addition to considering only the structure of conventional drugs or drug targets, the similarity of drugs is measured in various aspects to further facilitate the prediction of the occurrence of side effects and improve the prediction accuracy. There is a need for research on new methods that can do this.
Specifically, among the conventional technologies in the above technical field, Korean Patent Publication No. 10-2022-0117729 discloses a configuration for detecting unknown side effects of drugs using a machine learning algorithm, but the corresponding In the case of the technology, as described above, it corresponds to the configuration of detecting the side effects of drugs using the minimum information included in the spontaneous adverse event report data, and measures the similarity of drugs in various aspects including the structure and target of drugs. Therefore, there is no conventional technique for predicting the side effects of drugs based on similarity measurement in various aspects, since it does not describe a configuration that facilitates the prediction of the possibility of side effects.
삭제delete
본 발명은 유사도 측정에 기반한 약물의 부작용을 예측하는 방법, 시스템, 및 컴퓨터-판독가능 매체에 관한 것으로서, 더욱 상세하게는 예측대상약물에 대해 예측대상부작용의 발현가능성을 예측하기 위하여 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 유사도를 도출하고, 예측대상부작용과 예측대상약물에 대해 알려져 있는 기존부작용 사이의 유사도를 도출하여, 학습된 추론모델부에 유사도에 기반한 정보를 입력하여 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측하는, 유사도 측정에 기반한 약물의 부작용을 예측하는 방법, 시스템, 및 컴퓨터-판독가능 매체에 관한 것이다.The present invention relates to a method, system, and computer-readable medium for predicting side effects of drugs based on similarity measurement, and more particularly, in order to predict the possibility of occurrence of a predicted side effect for a predicted drug, a predicted side effect is Derive the similarity between a plurality of existing drugs known to be It relates to a method, system, and computer-readable medium for predicting side effects of a drug based on similarity measurement, predicting the possibility of occurrence of a predicted target side effect for a drug.
상기와 같은 과제를 해결하기 위하여 본 발명은, 컴퓨팅장치로 구현되는, 약물 부작용을 예측하는 방법으로서, 예측대상약물과, 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 2 이상의 카테고리 각각에 대하여 제1유사도값을 도출하는 단계; 각각의 상기 카테고리에 대한 복수의 상기 제1유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제1유사도대표정보를 도출하는 단계; 상기 예측대상부작용과, 상기 예측대상약물에 대하여 알려져 있는 복수의 기존부작용 사이의 각각의 제2유사도값을 도출하는 단계; 복수의 상기 제2유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제2유사도대표정보를 도출하는 단계; 및 상기 제1유사도대표정보 및 상기 제2유사도대표정보를 학습된 추론모델부에 입력하여, 상기 예측대상약물에 대한 상기 예측대상부작용의 발현가능성에 대한 정보를 도출하는 단계;를 포함하는, 약물의 부작용을 예측하는 방법을 제공한다.In order to solve the above problems, the present invention is a method for predicting drug side effects, implemented by a computing device, for each of two or more categories between a drug to be predicted and a plurality of existing drugs known to have side effects to be predicted. Deriving a first similarity value; deriving first similarity representative information between the predicted target drug and the predicted target side effect by extracting a maximum value from the plurality of first similarity values for each category; deriving each second similarity value between the predicted target side effect and a plurality of existing side effects known for the predicted target drug; deriving second similarity representative information between the predicted target drug and the predicted target side effect by extracting a maximum value from the plurality of second similarity values; And inputting the first similarity representative information and the second similarity representative information to the learned inference model unit to derive information on the possibility of occurrence of the predicted side effect for the predicted drug; including, drug Provides a method for predicting side effects of
본 발명의 일 실시예에서는, 상기 제1유사도값을 도출하는 단계는, 약물이 영향을 주거나, 혹은 영향을 받는 1 이상의 타 약물간의 상호관계를 제1카테고리로 포함하고, 상기 예측대상약물이 영향을 주거나, 혹은 영향을 받는 1 이상의 타 약물간의 상호관계 및 상기 복수의 기존약물 각각이 영향을 주거나, 혹은 영향을 받는 1 이상의 타 약물간의 상호관계 사이의 상기 제1카테고리에 대한 제1유사도값을 도출할 수 있다.In one embodiment of the present invention, the step of deriving the first similarity value includes, as a first category, a correlation between one or more other drugs that the drug has an effect on or is affected by, and the drug to be predicted has an effect. The first similarity value for the first category between the correlation between one or more other drugs that give or are affected and the correlation between one or more other drugs that each of the plurality of existing drugs has an effect on or is affected by can be derived
본 발명의 일 실시예에서는, 상기 제1유사도값을 도출하는 단계는, 약물이 타겟으로 하는 복수의 타겟유전자 사이의 상호작용 경로에 포함되는 유전자 및 단백질에 대한 노드정보를 제2카테고리로 포함하고, 상기 예측대상약물에 대한 노드정보 및 상기 복수의 기존약물 각각의 노드정보 사이의 상기 제2카테고리에 대한 제1유사도값을 도출할 수 있다.In one embodiment of the present invention, the step of deriving the first similarity value includes, as a second category, node information about genes and proteins included in an interaction path between a plurality of target genes targeted by a drug, , A first similarity value for the second category between the node information on the drug to be predicted and the node information on each of the plurality of existing drugs can be derived.
본 발명의 일 실시예에서는, 상기 제1유사도값을 도출하는 단계는, 약물에 관련된 1 이상의 질병 각각에 관련된 SNP(Single Nucleotide Polymorphism)가 발현되는 1 이상의 유전자에 대한 발현유전자정보를 제3카테고리로 포함하고, 상기 예측대상약물에 대한 발현유전자정보 및 상기 복수의 기존약물 각각에 대한 발현유전자정보 사이의 상기 제3카테고리에 대한 제1유사도값을 도출할 수 있다.In one embodiment of the present invention, in the step of deriving the first similarity value, expression gene information for one or more genes in which SNPs (Single Nucleotide Polymorphisms) related to each of one or more drug-related diseases are expressed as a third category. In addition, a first similarity value for the third category between the expression gene information for the drug to be predicted and the expression gene information for each of the plurality of existing drugs may be derived.
본 발명의 일 실시예에서는, 상기 제1유사도값을 도출하는 단계는, 약물에 관련된 1 이상의 증상 혹은 질병에 대한 증상정보를 제4카테고리 및 약물이 타겟으로 하는 복수의 타겟유전자에 대한 타겟유전자정보를 제5카테고리로 포함하고, 상기 예측대상약물에 대한 증상정보 및 상기 복수의 기존약물 각각에 대한 증상정보 사이의 상기 제4카테고리에 대한 제1유사도값 및 상기 예측대상약물에 대한 타겟유전자정보 및 상기 복수의 기존약물 각각에 대한 타겟유전자정보 사이의 상기 제5카테고리에 대한 제1유사도값을 도출할 수 있다.In one embodiment of the present invention, the step of deriving the first similarity value includes symptom information for one or more symptoms or diseases related to the drug as a fourth category and target gene information for a plurality of target genes targeted by the drug. as a fifth category, and the first similarity value for the fourth category between the symptom information for the drug to be predicted and the symptom information for each of the plurality of existing drugs and the target gene information for the drug to be predicted, and A first similarity value for the fifth category between target gene information for each of the plurality of existing drugs may be derived.
본 발명의 일 실시예에서는, 상기 제1유사도값을 도출하는 단계는, 상기 카테고리별로, 상기 예측대상약물의 해당 카테고리에 대한 정보 및 각각의 상기 기존약물의 해당 카테고리에 대한 정보 사이의 교집합의 원소 수를 합집합의 원소 수로 나눈 값을 상기 제1유사도값으로 산출할 수 있다.In one embodiment of the present invention, the step of deriving the first similarity value may include, for each category, an element of the intersection between the information on the corresponding category of the drug to be predicted and the information on the corresponding category of each existing drug. A value obtained by dividing the number by the number of elements of the union may be calculated as the first similarity value.
본 발명의 일 실시예에서는, 상기 제2유사도값을 도출하는 단계는, 해부학적으로 구분된 복수의 계층별로, 상기 예측대상부작용이 발현되는 계층요소의 종류 및 각각의 상기 기존부작용이 발현되는 계층요소의 종류에 기초하여 상기 제2유사도값을 도출할 수 있다.In one embodiment of the present invention, the step of deriving the second similarity value may include, for each of a plurality of anatomically divided layers, the type of layer element in which the predicted side effect is expressed and the layer in which each of the existing side effects is expressed. The second similarity value may be derived based on the type of element.
본 발명의 일 실시예에서는, 상기 제2유사도값을 도출하는 단계는, 해부학적으로 구분된 복수의 계층별로, 상기 예측대상부작용이 발현되는 계층요소의 집합 및 각각의 상기 기존부작용이 발현되는 계층요소의 집합 사이의 교집합의 원소 수를 합집합의 원소 수로 나눈 계층유사도값을 산출하는 단계; 및 상기 복수의 계층별로 산출된 계층유사도값의 총합의 값을 상기 복수의 계층의 개수로 나눈 값을 상기 제2유사도값으로 산출하는 단계;를 포함할 수 있다.In one embodiment of the present invention, the step of deriving the second similarity value may include a set of layer elements in which the predicted target side effect is expressed and a layer in which each of the existing side effects is expressed for each of a plurality of anatomically divided layers. Calculating a hierarchical similarity value by dividing the number of elements of the intersection between sets of elements by the number of elements of the union; and calculating, as the second similarity value, a value obtained by dividing the sum of the layer similarity values calculated for each of the plurality of layers by the number of the plurality of layers.
본 발명의 일 실시예에서는, 상기 추론모델부는, 상기 제1유사도대표정보 및 상기 제2유사도대표정보에 기초하여 상기 예측대상약물에 대한 상기 예측대상부작용의 제1발현가능성에 대한 정보를 도출하는 복수의 제1추론모델; 및 상기 복수의 제1추론모델 각각이 도출한 복수의 상기 제1발현가능성에 대한 정보에 기초하여 상기 예측대상약물에 대한 상기 예측대상부작용의 제2발현가능성에 대한 정보를 도출하는 제2추론모델을 포함할 수 있다.In one embodiment of the present invention, the inference model unit, based on the first similarity representative information and the second similarity representative information to derive information on the first occurrence possibility of the predicted target side effect for the predicted target drug a plurality of first inference models; And a second inference model for deriving information on the second expression possibility of the predicted target side effect for the predicted target drug based on the information on the plurality of first expression possibilities derived by each of the plurality of first inference models. can include
본 발명의 일 실시예에서는, 상기 복수의 제1추론모델 각각은 서로 상이한 추론 알고리즘을 포함하고, 상기 추론 알고리즘은, 랜덤포레스트(Random forest), 로지스틱 회귀(Logistic regression), 나이브 베이지안(Naive Bayesian) 및 XGBoost를 포함할 수 있다.In one embodiment of the present invention, each of the plurality of first inference models includes different inference algorithms, and the inference algorithms include random forest, logistic regression, and naive Bayesian. and XGBoost.
본 발명의 일 실시예에서는, 상기 복수의 제1추론모델은, 어느 하나의 제1약물과 상기 제1약물에 대하여 알려져 있는 어느 하나의 부작용을 쌍으로 하는 복수의 제1샘플 및 어느 하나의 제2약물과 상기 제2약물에 대하여 알려져 있지 않은 어느 하나의 부작용을 쌍으로 하는 복수의 제2샘플 각각에 대한 제1유사도대표학습정보 및 제2유사도대표학습정보에 의하여 학습되고, 상기 제1유사도대표학습정보 및 상기 제2유사도대표학습정보는, 예측대상약물과, 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 2 이상의 카테고리 각각에 대하여 제1유사도값을 도출하는 단계; 각각의 상기 카테고리에 대한 복수의 상기 제1유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제1유사도대표정보를 도출하는 단계; 상기 예측대상부작용과, 상기 예측대상약물에 대하여 알려져 있는 복수의 기존부작용 사이의 각각의 제2유사도값을 도출하는 단계; 복수의 상기 제2유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제2유사도대표정보를 도출하는 단계;에 의하여 도출될 수 있다.In one embodiment of the present invention, the plurality of first inference models include a plurality of first samples paired with any one first drug and any one known side effect with respect to the first drug, and any one It is learned by the first similarity representative learning information and the second similarity representative learning information for each of a plurality of second samples pairing two drugs and any one side effect unknown to the second drug, and the first similarity Deriving a first similarity value for each of two or more categories between the representative learning information and the second similarity representative learning information, between a drug to be predicted and a plurality of existing drugs known to have side effects to be predicted; deriving first similarity representative information between the predicted target drug and the predicted target side effect by extracting a maximum value from the plurality of first similarity values for each category; deriving each second similarity value between the predicted target side effect and a plurality of existing side effects known for the predicted target drug; Deriving the second similarity representative information between the drug to be predicted and the side effect to be predicted by extracting the maximum value from the plurality of second similarity values;
상기와 같은 과제를 해결하기 위하여 본 발명은, 약물 부작용을 예측하는 시스템으로서, 예측대상약물과, 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 2 이상의 카테고리 각각에 대하여 제1유사도값을 도출하는 제1유사도도출부; 각각의 상기 카테고리에 대한 복수의 상기 제1유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제1유사도대표정보를 도출하는 제1유사도대표정보도출부; 상기 예측대상부작용과, 상기 예측대상약물에 대하여 알려져 있는 복수의 기존부작용 사이의 각각의 제2유사도값을 도출하는 제2유사도도출부; 복수의 상기 제2유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제2유사도대표정보를 도출하는 제2유사도대표정보도출부; 및 상기 제1유사도대표정보 및 상기 제2유사도대표정보를 학습된 추론모델부에 입력하여, 상기 예측대상약물에 대한 상기 예측대상부작용의 발현가능성에 대한 정보를 도출하는 발현가능성예측부;를 포함하는, 약물의 부작용을 예측하는 시스템을 제공한다.In order to solve the above problems, the present invention is a system for predicting drug side effects, and derives a first similarity value for each of two or more categories between a drug to be predicted and a plurality of existing drugs known to have side effects to be predicted. a first similarity derivation unit to do; a first similarity representative information derivation unit extracting a maximum value from a plurality of first similarity values for each category and deriving first similarity representative information between the predicted target drug and the predicted target side effect; a second similarity derivation unit for deriving respective second similarity values between the predicted target side effect and a plurality of existing side effects known for the predicted target drug; a second similarity representative information derivation unit extracting a maximum value from a plurality of second similarity values and deriving second similarity representative information between the prediction target drug and the prediction target side effect; and an occurrence possibility prediction unit inputting the first similarity representative information and the second similarity representative information to the learned inference model unit to derive information on the occurrence possibility of the prediction target side effect for the prediction target drug. To provide a system for predicting side effects of drugs.
상기와 같은 과제를 해결하기 위하여 본 발명은, 1 이상의 프로세서 및 1 이상의 메모리를 갖는 컴퓨팅장치에서 수행되는 약물 부작용을 예측하는 방법을 구현하기 위한, 컴퓨터-판독가능 매체로서, 예측대상약물과, 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 2 이상의 카테고리 각각에 대하여 제1유사도값을 도출하는 단계; 각각의 상기 카테고리에 대한 복수의 상기 제1유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제1유사도대표정보를 도출하는 단계; 상기 예측대상부작용과, 상기 예측대상약물에 대하여 알려져 있는 복수의 기존부작용 사이의 각각의 제2유사도값을 도출하는 단계; 복수의 상기 제2유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제2유사도대표정보를 도출하는 단계; 및 상기 제1유사도대표정보 및 상기 제2유사도대표정보를 학습된 추론모델부에 입력하여, 상기 예측대상약물에 대한 상기 예측대상부작용의 발현가능성에 대한 정보를 도출하는 단계;를 포함하는, 컴퓨터-판독가능 매체를 제공한다.In order to solve the above problems, the present invention is a computer-readable medium for implementing a method for predicting side effects of a drug performed in a computing device having one or more processors and one or more memories, comprising a drug to be predicted and prediction deriving a first similarity value for each of two or more categories among a plurality of existing drugs known to have target side effects; deriving first similarity representative information between the predicted target drug and the predicted target side effect by extracting a maximum value from the plurality of first similarity values for each category; deriving each second similarity value between the predicted target side effect and a plurality of existing side effects known for the predicted target drug; deriving second similarity representative information between the predicted target drug and the predicted target side effect by extracting a maximum value from the plurality of second similarity values; And inputting the first similarity representative information and the second similarity representative information to the learned inference model unit to derive information on the possibility of occurrence of the predicted target side effect for the predicted target drug; computer comprising; -Provides a readable medium.
본 발명의 일 실시예에 따르면, 예측대상약물과 복수의 기존약물 각각에 대하여 약물과 약물 사이의 상호관계를 카테고리로 하여 제1유사도 값을 도출하므로, 더욱더 정확하게 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측할 수 있는 효과를 발휘할 수 있다.According to one embodiment of the present invention, since the first similarity value is derived by categorizing the drug-to-drug relationship for each of the drug to be predicted and a plurality of existing drugs, the predicted side effects of the drug to be predicted more accurately It can exert the effect of predicting the possibility of expression.
본 발명의 일 실시예에 따르면, 예측대상약물과 복수의 기존약물 각각에 대하여 약물이 타겟으로 하는 복수의 타겟유전자 사이의 노드정보를 카테고리로 하여 제1유사도값을 도출하므로, 더욱더 정확하게 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측할 수 있는 효과를 발휘할 수 있다.According to one embodiment of the present invention, since the first similarity value is derived by categorizing the node information between the drug to be predicted and a plurality of target genes targeted by the drug for each of the plurality of existing drugs, the drug to be predicted more accurately It can exert the effect of predicting the possibility of occurrence of the predicted target side effect for
본 발명의 일 실시예에 따르면, 예측대상약물과 복수의 기존약물 각각에 대하여 약물에 관련된 1 이상의 질병 각각에 대한 SNP가 발현되는 발현유전자정보를 카테고리로 하여 제1유사도값을 도출하므로, 더욱더 정확하게 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측할 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, since the first similarity value is derived by categorizing expression gene information in which SNPs for each of one or more drug-related diseases are expressed for each of the drug to be predicted and a plurality of existing drugs, the first similarity value is derived more accurately It can exert the effect of predicting the possibility of occurrence of the predicted target side effects for the predicted target drug.
본 발명의 일 실시예에 따르면, 예측대상부작용과 예측대상약물에 대해 알려져 있는 복수의 기존 부작용 사이의 제2유사도값을 도출하므로, 더욱더 정확하게 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측할 수 있는 효과를 발휘할 수 있다.According to one embodiment of the present invention, since a second similarity value is derived between a predicted side effect and a plurality of existing side effects known for the predicted drug, the possibility of occurrence of the predicted side effect for the predicted drug can be more accurately predicted. effect can be exerted.
본 발명의 일 실시예에 따르면, 발현가능성에 대한 정보를 도출하는 학습된 추론모델부는, 복수의 제1추론모델에서 도출한 결과값을 입력으로 하는 앙상블 학습으로 구현되는 제2추론모델을 포함하므로, 추론모델부의 성능을 향상시킬 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, the learned inference model unit for deriving information on the possibility of occurrence includes a second inference model implemented by ensemble learning that takes as input result values derived from a plurality of first inference models. , can exert the effect of improving the performance of the inference model unit.
도 1은 본 발명의 일 실시예에 따른 복수의 데이터베이스를 기반으로 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측하는 과정을 개략적으로 도시한다.
도 2는 본 발명의 일 실시예에 따른 약물의 부작용을 예측하는 방법을 구현하는 컴퓨팅장치를 개략적으로 도시한다.
도 3은 본 발명의 일 실시예에 따른 약물의 부작용을 예측하는 방법에 대한 세부 단계들을 개략적으로 도시한다.
도 4는 본 발명의 일 실시예에 따른 약물과 약물 간의 상호관계를 개략적으로 도시한다.
도 5는 본 발명의 일 실시예에 따른 약물이 타겟으로 하는 복수의 타겟유전자 사이의 상호작용 경로를 개략적으로 도시한다.
도 6은 본 발명의 일 실시예에 따른 약물에 대한 발현유전자정보를 개략적으로 도시한다.
도 7은 본 발명의 일 실시예에 따른 약물에 관련된 증상정보를 개략적으로 도시한다.
도 8은 본 발명의 일 실시예에 따른 해부학적으로 구분된 복수의 계층에 따라 부작용이 발현되는 계층요소들을 개략적으로 도시한다.
도 9는 본 발명의 일 실시예에 따른 카테고리별 복수의 제1유사도값 및 복수의 제2유사도값에서 제1유사도대표정보 및 제2유사도대표정보를 도출하는 과정을 개략적으로 도시한다.
도 10은 본 발명의 일 실시예에 따른 추론모델부의 내부 구성을 개략적으로 도시한다.
도 11은 본 발명의 일 실시예에 따른 제1추론모델이 학습데이터에 의해 학습하는 과정을 개략적으로 도시한다.
도 12는 본 발명의 일 실시예에 따른 유사도대표학습정보를 도출하는 과정을 개략적으로 도시한다.
도 13은 본 발명의 일 실시예에 따른 다양한 추론모델부의 구성에 대한 Area Under the ROC Curve(AUC) 값들을 개략적으로 도시한다.
도 14는 본 발명의 일 실시예에 따른 컴퓨팅장치의 내부 구성을 개략적으로 도시한다.1 schematically illustrates a process of predicting the possibility of occurrence of a predicted side effect for a predicted drug based on a plurality of databases according to an embodiment of the present invention.
2 schematically illustrates a computing device implementing a method for predicting side effects of drugs according to an embodiment of the present invention.
Figure 3 schematically shows detailed steps for a method for predicting side effects of drugs according to an embodiment of the present invention.
Figure 4 schematically shows a drug-to-drug relationship according to an embodiment of the present invention.
5 schematically shows an interaction pathway between a plurality of target genes targeted by a drug according to an embodiment of the present invention.
6 schematically shows expression gene information for a drug according to an embodiment of the present invention.
7 schematically illustrates symptom information related to drugs according to an embodiment of the present invention.
8 schematically illustrates hierarchical elements in which side effects are expressed according to a plurality of anatomically divided hierarchies according to an embodiment of the present invention.
9 schematically illustrates a process of deriving first similarity representative information and second similarity representative information from a plurality of first similarity values and a plurality of second similarity values for each category according to an embodiment of the present invention.
10 schematically illustrates the internal configuration of an inference model unit according to an embodiment of the present invention.
11 schematically illustrates a process in which a first inference model learns by learning data according to an embodiment of the present invention.
12 schematically illustrates a process of deriving similarity representative learning information according to an embodiment of the present invention.
13 schematically illustrates Area Under the ROC Curve (AUC) values for various configurations of inference model units according to an embodiment of the present invention.
14 schematically illustrates the internal configuration of a computing device according to an embodiment of the present invention.
이하에서는, 다양한 실시예들 및/또는 양상들이 이제 도면들을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나이상의 양상들의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항들이 개시된다. 그러나, 이러한 양상(들)은 이러한 구체적인 세부사항들 없이도 실행될 수 있다는 점 또한 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 인식될 수 있을 것이다. 이후의 기재 및 첨부된 도면들은 하나 이상의 양상들의 특정한 예시적인 양상들을 상세하게 기술한다. 하지만, 이러한 양상들은 예시적인 것이고 다양한 양상들의 원리들에서의 다양한 방법들 중 일부가 이용될 수 있으며, 기술되는 설명들은 그러한 양상들 및 그들의 균등물들을 모두 포함하고자 하는 의도이다.In the following, various embodiments and/or aspects are disclosed with reference now to the drawings. In the following description, for purposes of explanation, numerous specific details are set forth in order to facilitate a general understanding of one or more aspects. However, it will also be appreciated by those skilled in the art that such aspect(s) may be practiced without these specific details. The following description and accompanying drawings describe in detail certain illustrative aspects of one or more aspects. However, these aspects are exemplary and some of the various methods in principle of the various aspects may be used, and the described descriptions are intended to include all such aspects and their equivalents.
또한, 다양한 양상들 및 특징들이 다수의 디바이스들, 컴포넌트들 및/또는 모듈들 등을 포함할 수 있는 시스템에 의하여 제시될 것이다. 다양한 시스템들이, 추가적인 장치들, 컴포넌트들 및/또는 모듈들 등을 포함할 수 있다는 점 그리고/또는 도면들과 관련하여 논의된 장치들, 컴포넌트들, 모듈들 등 전부를 포함하지 않을 수도 있다는 점 또한 이해되고 인식되어야 한다.Moreover, various aspects and features will be presented by a system that may include a number of devices, components and/or modules, and the like. It should also be noted that various systems may include additional devices, components and/or modules, and/or may not include all of the devices, components, modules, etc. discussed in connection with the figures. It must be understood and recognized.
본 명세서에서 사용되는 "실시예", "예", "양상", "예시" 등은 기술되는 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않을 수도 있다. 아래에서 사용되는 용어들 '~부', '컴포넌트', '모듈', '시스템', '인터페이스' 등은 일반적으로 컴퓨터 관련 엔티티(computer-related entity)를 의미하며, 예를 들어, 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어를 의미할 수 있다."Example", "example", "aspect", "exemplary", etc., used herein should not be construed as preferring or advantageous to any aspect or design being described over other aspects or designs. . The terms '~unit', 'component', 'module', 'system', 'interface', etc. used below generally mean a computer-related entity, and for example, hardware, hardware It may mean a combination of and software, software.
또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징 및/또는 구성요소가 존재함을 의미하지만, 하나이상의 다른 특징, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다.Also, the terms "comprises" and/or "comprising" mean that the feature and/or element is present, but excludes the presence or addition of one or more other features, elements and/or groups thereof. It should be understood that it does not.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.In addition, terms including ordinal numbers, such as first and second, may be used to describe various components, but the components are not limited by the terms. These terms are only used for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element, without departing from the scope of the present invention. The terms and/or include any combination of a plurality of related recited items or any of a plurality of related recited items.
또한, 본 발명의 실시예들에서, 별도로 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명의 실시예에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.In addition, in the embodiments of the present invention, unless otherwise defined, all terms used herein, including technical or scientific terms, are generally understood by those of ordinary skill in the art to which the present invention belongs. has the same meaning as Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in the embodiments of the present invention, an ideal or excessively formal meaning not be interpreted as
도 1은 본 발명의 일 실시예에 따른 복수의 데이터베이스를 기반으로 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측하는 과정을 개략적으로 도시한다.1 schematically illustrates a process of predicting the possibility of occurrence of a predicted side effect for a predicted drug based on a plurality of databases according to an embodiment of the present invention.
도 1에 도시된 바와 같이, 예측대상약물에 대하여 예측대상부작용의 발현가능성을 예측하기 위하여 약물 혹은 부작용에 대한 복수의 데이터베이스를 사용하며, 상기 복수의 데이터베이스는 종래의 부작용을 예측하기 위한 방법으로 고려되었던 약물의 구조 및 약물의 타겟유전자에 대한 정보에 대한 데이터베이스 외에도 약물과 약물간의 상호관계에 대한 데이터베이스, 약물의 복수의 타겟유전자 사이의 단백질-단백질 상호관계(Protein-protein interaction, PPI) 네트워크에 대한 데이터베이스, 질병에 관련된 Single Nucleotide Polymorphism(SNP)가 발현되는 유전자에 대한 데이터베이스, 약물의 적응증(Indication)에 대한 데이터베이스 및 부작용의 해부학적 특성에 대한 데이터베이스를 추가적으로 사용하여 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측할 수 있다.As shown in Figure 1, a plurality of databases for drugs or side effects are used to predict the possibility of occurrence of predicted side effects for a predicted drug, and the plurality of databases are considered as a conventional method for predicting side effects. In addition to the database for information on the structure of drugs and target genes of drugs, a database on drug-drug interactions and a protein-protein interaction (PPI) network between multiple target genes of drugs By additionally using databases, databases on genes expressing Single Nucleotide Polymorphism (SNP) related to diseases, databases on drug indications, and databases on anatomical characteristics of side effects, predictive target side effects for predicted drugs possibility of occurrence can be predicted.
도 1에 도시된 데이터베이스들은 DrugBank, Search Tool for the Retrieval of Interacting Genes/Proteins(STRING), PubChem, TTD, CTD 및 repoDB와 같이 상기와 같은 정보들을 포함하는 별도의 외부 데이터베이스에 해당할 수 있고, 상기 약물 부작용을 예측하는 방법을 구현하는 컴퓨팅장치(1000)에서 상기 외부 데이터베이스들로부터 직접 정보들을 수신하거나, 상기 컴퓨팅장치(1000)의 사용자 혹은 관리자로부터 상기 외부 데이터베이스에 대한 정보들을 입력받을 수도 있다.The databases shown in FIG. 1 may correspond to separate external databases including the above information, such as DrugBank, Search Tool for the Retrieval of Interacting Genes/Proteins (STRING), PubChem, TTD, CTD, and repoDB. The
한편, 상기 컴퓨팅장치(1000)는 상술한 복수의 데이터베이스의 정보들을 사용하여 예측대상약물과 예측대상부작용 사이의 유사도대표정보를 도출한다. 구체적으로 상기 유사도대표정보는 제1유사도대표정보 및 제2유사도대표정보를 포함하고, 제1유사도대표정보는 상기 예측대상약물과 상기 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 유사도에 해당하고, 상기 제2유사도대표정보는 상기 예측대상부작용과 상기 예측대상약물에 대해 알려져 있는 복수의 기존부작용 사이의 유사도에 해당한다.Meanwhile, the
이와 같이, 본 발명에서는 단순히 약물과 약물사이의 유사도 만을 고려하는 것이 아니라, 예측하고자 하는 부작용과 예측대상약물에 대해 알려져 있는 부작용 사이의 유사도를 더 고려하므로, 예측대상약물에 대한 예측대상부작용의 발현가능성을 더욱 정확하게 예측할 수 있는 효과를 발휘할 수 있다.As such, the present invention does not simply consider the similarity between drugs, but also considers the similarity between the side effect to be predicted and the known side effect of the drug to be predicted, so the expression of the side effect to be predicted for the drug to be predicted It can exert the effect of predicting the possibility more accurately.
본 발명에서 기재하는 예측대상약물은 신약 후보 약물과 같이 어떤 부작용이 발생할 수 있는지를 예측하는 대상이 되는 약물을 의미하고, 예측대상부작용은 예측대상약물에 대하여 예측하고자 하는 부작용을 의미한다. 또한 상기 기존약물은 상기 예측대상부작용이 발생할 수 있는 것으로 이미 알려져 있는 약물을 의미하고, 상기 기존부작용은 상기 예측대상약물에 의해 발생할 수 있는 것으로 이미 알려져 있는 부작용을 의미한다.The drug to be predicted in the present invention means a drug that is a target for predicting what kind of side effects may occur, such as a new drug candidate, and the side effect to be predicted means a side effect to be predicted for the drug to be predicted. In addition, the existing drug refers to a drug that is already known to cause the predicted target side effect, and the existing side effect refers to a side effect that is already known to be caused by the predicted target drug.
컴퓨팅장치(1000)는 예측대상약물과 예측대상부작용 사이의 유사도대표정보에 기초하여 예측대상약물에 대한 예측대상부작용의 발현가능성에 대한 정보를 도출한다. 구체적으로 상기 컴퓨팅장치(1000)는 기계학습된 추론모델부(1700)에 상기 유사도대표정보를 입력하여 상기 발현가능성에 대한 정보를 도출하며, 상기 발현가능성에 대한 정보는, 예측대상부작용의 발현 여부, 혹은 발현 가능성에 대한 수치화된 정보와 같이 다양한 형태를 포함할 수 있다.The
이하에서는, 컴퓨팅장치(1000)에서 구현되는 약물 부작용을 예측하는 방법에 대하여 상세하게 설명하도록 한다.Hereinafter, a method of predicting drug side effects implemented in the
도 2는 본 발명의 일 실시예에 따른 약물의 부작용을 예측하는 방법을 구현하는 컴퓨팅장치(1000)를 개략적으로 도시한다.2 schematically illustrates a
도 2에서 도시한 바와 같이, 본 발명의 일 실시예에 다른 약물의 부작용을 예측하는 방법을 구현하는 컴퓨팅장치(1000)는 외부의 참조데이터베이스(2000)와 통신을 수행할 수 있다.As shown in FIG. 2 , the
상기 참조데이터베이스(2000)는 복수의 데이터베이스를 포함할 수 있고, 상기 복수의 데이터베이스는 제1참조데이터베이스(2100), 제2참조데이터베이스(2200) 및 제N참조데이터베이스(2300)를 포함할 수 있고, 앞서 설명한 바와 같이, 각각의 참조데이터베이스(2100 내지 2300)는 약물 혹은 부작용에 관련된 정보들을 포함한다.The
이와 같이, 상기 참조데이터베이스(2000)는 약물의 부작용을 예측하기 위한 방법을 구현하는 컴퓨팅장치(1000)와 통신을 수행할 수 있고, 상기 컴퓨팅장치(1000)는 상기 참조데이터베이스(2000)에 포함된 정보들에 접근할 수 있다.In this way, the
한편, 상기 컴퓨팅장치(1000)는, 데이터베이스가공부(1100), 제1유사도도출부(1200), 제1유사도대표정보도출부(1300), 제2유사도도출부(1400), 제2유사도대표정보도출부(1500), 발현가능성예측부(1600), 추론모델부(1700) 및 DB(1800)를 포함할 수 있다.Meanwhile, the
구체적으로, 상기 데이터베이스가공부(1100)는 상기 참조데이터베이스(2000)에 접근하여 저장된 정보들을 수신하거나 혹은 컴퓨팅장치(1000)에서 예측대상약물과 기존약물 사이의 제1유사도값 및 예측대상부작용과 기존부작용 사이의 제2유사도값을 용이하게 도출할 수 있도록 수신한 정보들을 가공할 수 있다. 한편 상기 데이터베이스가공부(1100)는 사용자로부터 참조데이터베이스(2000)에 대한 정보를 직접 입력받아 해당 정보들을 가공하거나 혹은, 사용자로부터 가공된 정보들을 직접 입력받을 수도 있다.Specifically, the
상기 제1유사도도출부(1200)는 상기 예측대상약물과 상기 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 유사도에 해당하는 제1유사도값을 도출한다. 구체적으로 상기 제1유사도도출부(1200)는 기설정된 복수의 카테고리에 따라 상기 예측대상약물과 상기 복수의 기존약물 각각에 대한 제1유사도값을 도출하며, 카테고리에 따른 제1유사도값을 도출하는 구체적인 방법에 대해서는 후술하도록 한다.The first
상기 제1유사도대표정보도출부(1300)는 상기 제1유사도도출부(1200)에서 도출한 상기 예측대상약물과 상기 복수의 기존약물 사이의 복수의 제1유사도값에 기초하여 제1유사도대표정보를 도출한다. 구체적으로 상기 제1유사도대표정보도출부(1300)는 상기 예측대상약물과 상기 복수의 기존약물의 카테고리별로 도출된 복수의 제1유사도값 가운데 최대값을 추출하는 것으로 상기 제1유사도대표정보를 도출할 수 있고, 따라서 상기 제1유사도대표정보에는 카테고리별로 최대값에 해당하는 제1유사도값들을 포함할 수 있다.The first similarity representative
상기 제2유사도도출부(1400)는 상기 예측대상부작용과 상기 예측대상약물에 대해 알려져 있는 복수의 기존부작용 사이의 유사도에 해당하는 제2유사도값을 도출한다. 구체적으로 상기 제2유사도도출부(1400)는 기설정된 카테고리에 따라 상기 예측대상부작용과 상기 복수의 기존부작용 각각에 대한 제2유사도값을 도출하며, 제2유사도값을 도출하는 구체적인 방법에 대해서는 후술하도록 한다.The second
상기 제2유사도대표정보도출부(1500)는 상기 제2유사도도출부(1400)에서 도출한 상기 예측대상부작용과 상기 복수의 기존부작용 사이의 복수의 제2유사도값에 기초하여 제2유사도대표정보를 도출한다. 구체적으로 상기 제2유사도대표정보도출부(1500)는 상기 예측대상부작용과 상기 복수의 기존부작용 각각에 대하여 도출된 복수의 제2유사도값 가운데 최대값을 추출하는 것으로 상기 제2유사도대표정보를 도출할 수 있고, 따라서 상기 제2유사도대표정보에는 상기 기설정된 카테고리의 최대값에 해당하는 제2유사도값을 포함할 수 있다.The second similarity representative
한편, 상술한 상기 제1유사도도출부(1200), 상기 제1유사도대표정보도출부(1300), 상기 제2유사도도출부(1400) 및 상기 제2유사도대표정보도출부(1500)는, 예측대상약물에 대한 예측대상부작용의 발현가능성을 도출하기 위하여 추론모델부(1700)에 입력하는 정보를 도출하는 것 외에도, 상기 추론모델부(1700)가 학습하기 위한 학습데이터에 해당하는 제1유사도대표학습정보 및 제2유사도대표학습정보를 도출할 수도 있다.Meanwhile, the above-described first
상기 발현가능성예측부(1600)는 상기 예측대상약물과 상기 예측대상부작용에 대하여 도출된 상기 제1유사도대표정보 및 상기 제2유사도대표정보에 기초하여 상기 예측대상약물에 대하여 상기 예측대상부작용의 발현가능성에 대한 정보를 도출한다. 구체적으로 상기 발현가능성예측부(1600)는 후술하는 추론모델부(1700)에 상기 제1유사도대표정보 및 상기 제2유사도대표정보를 입력하여 상기 발현가능성에 대한 정보를 도출할 수 있다.The occurrence
상기 추론모델부(1700)는 상기 발현가능성예측부(1600)로부터 상기 예측대상약물과 상기 예측대상부작용에 대한 제1유사도대표정보 및 제2유사도대표정보를 입력받아 상기 발현가능성에 대한 정보를 도출한다. 구체적으로 상기 추론모델부(1700)는 기설정된 규칙에 기반하여 상기 발현가능성에 대한 정보를 도출할 수도 있으나, 바람직하게는 상기 추론모델부(1700)는 소정의 방법으로 학습을 수행하는 기계학습 알고리즘을 기반으로 하여 상기 발현가능성에 대한 정보를 도출한다.The
한편, 도 2에서는 상기 추론모델부(1700)가 상기 컴퓨팅장치(1000) 내부에 포함되는 것으로 도시되어 있으나 이에 한정되지 아니하고, 본 발명의 다른 실시예에서는 상기 추론모델부(1700)는 상기 컴퓨팅장치(1000)와는 별도의 타 서버 혹은 타 컴퓨팅장치에 포함될 수 있고, 상기 발현가능성예측부(1600)는 상기 별도의 타 서버 혹은 타 컴퓨팅장치에 포함된 상기 추론모델부(1700)를 호출하여 상기 발현가능성에 대한 정보를 도출할 수 있다.Meanwhile, in FIG. 2 , the
상기 DB(1800)는 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측하기 위하여 필요한 정보를 저장할 수 있고, 구체적으로 예측대상약물 및 예측대상부작용에 대한 복수의 제1유사도 값 및 복수의 제2유사도값, 제1유사도대표정보 및 제2유사도대표정보를 포함하는 유사도대표정보를 저장할 수 있고, 또한 상기 추론모델부(1700)가 학습하기 위한 학습데이터, 구체적으로는 제1유사도대표학습정보 및 제2유사도대표학습정보를 포함하는 학습데이터를 저장할 수 있다. 추가적으로, 상기 DB(1800)는 상기 발현가능성예측부(1600)에서 도출한 예측결과, 즉 발현가능성에 대한 정보를 저장할 수 있다.The
도 3은 본 발명의 일 실시예에 따른 약물의 부작용을 예측하는 방법에 대한 세부 단계들을 개략적으로 도시한다.Figure 3 schematically shows detailed steps for a method for predicting side effects of drugs according to an embodiment of the present invention.
도 3에 도시된 바와 같이, 컴퓨팅장치(1000)로 구현되는, 약물 부작용을 예측하는 방법으로서, 예측대상약물과, 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 2 이상의 카테고리 각각에 대하여 제1유사도값을 도출하는 단계(S100); 각각의 상기 카테고리에 대한 복수의 상기 제1유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제1유사도대표정보를 도출하는 단계(S110); 상기 예측대상부작용과, 상기 예측대상약물에 대하여 알려져 있는 복수의 기존부작용 사이의 각각의 제2유사도값을 도출하는 단계(S120); 복수의 상기 제2유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제2유사도대표정보를 도출하는 단계(S130); 및 상기 제1유사도대표정보 및 상기 제2유사도대표정보를 학습된 추론모델부(1700)에 입력하여, 상기 예측대상약물에 대한 상기 예측대상부작용의 발현가능성에 대한 정보를 도출하는 단계(S140);를 포함할 수 있다.As shown in FIG. 3, a method for predicting drug side effects implemented by a
구체적으로, 약물 부작용을 예측하기 위한 방법을 구현하는 컴퓨팅장치(1000)는 사용자로부터 부작용을 예측하고자 하는 특정 약물(예측대상약물) 및 상기 예측대상약물에 대해 예측하고자 하는 특정 부작용(예측대상부작용)에 대한 정보를 입력받을 수 있다.Specifically, the
이후 상기 컴퓨팅장치(1000)의 제1유사도도출부(1200)는 상기 예측대상약물 및 상기 예측대상부작용이 발현될 수 있는 것으로 알려져 있는 복수의 기존약물 각각에 대한 제1유사도값을 도출하는 단계(S100)를 수행한다.Thereafter, the first
구체적으로, 상기 제1유사도값을 도출하는 단계(S100)는 상기 예측대상약물과 상기 복수의 기존약물 각각에 대해 기설정된 2 이상의 카테고리에 따라 카테고리별 제1유사도값을 도출한다. 따라서, 상기 예측대상약물과 특정 기존약물에 대한 제1유사도값의 종류는 기설정된 2 이상의 카테고리별로 도출될 수 있고, 각 카테고리에는 복수의 기존약물의 개수에 해당하는 복수의 제1유사도값이 도출될 수 있다.Specifically, in the step of deriving the first similarity value (S100), a first similarity value for each category is derived according to preset two or more categories for each of the drug to be predicted and the plurality of existing drugs. Therefore, the type of first similarity value for the drug to be predicted and a specific existing drug may be derived for each of two or more predetermined categories, and a plurality of first similarity values corresponding to the number of a plurality of existing drugs are derived for each category. It can be.
즉, 상기 제1유사도값을 도출하는 단계(S100)는 예측대상약물에 대한 예측대상부작용의 발현가능성에 대한 정보를 도출하기 위하여 상기 예측대상약물과 타 약물들 간의 유사도를 측정할 수 있다.That is, in the step of deriving the first similarity value (S100), the similarity between the predicted target drug and other drugs may be measured in order to derive information on the possibility of occurrence of the predicted target drug for the predicted target drug.
한편, 상기 예측대상부작용이 있다고 알려져 있는 기존약물에 대한 정보는 사용자에 의해 컴퓨팅장치(1000)에 사전에 입력되거나 혹은 참조데이터베이스(2000)와 같이 외부의 데이터베이스로 해당 정보들을 접근 혹은 수신할 수 있다.On the other hand, information on existing drugs known to have the predicted side effects may be input in advance to the
상기 제1유사도대표정보도출부(1300)는 상기 제1유사도도출부(1200)에서 도출한 복수의 제1유사도값에 기초하여 제1유사도대표정보를 도출하는 단계(S110)를 수행한다.The first similarity representative
구체적으로, 상기 제1유사도대표정보를 도출하는 단계(S110)는 각각의 카테고리별로 도출된 복수의 제1유사도값 가운데 최대값을 갖는 제1유사도값을 상기 제1유사도대표정보로 도출한다. 따라서, 상기 제1유사도대표정보에는 각 카테고리별로 최대값을 갖는 제1유사도값들을 포함할 수 있다.Specifically, in the step of deriving the first similarity representative information (S110), a first similarity value having a maximum value among a plurality of first similarity values derived for each category is derived as the first similarity representative information. Accordingly, the first similarity representative information may include first similarity values having a maximum value for each category.
이와 같이, 상기 제1유사도대표정보도출부(1300)를 통해 도출된 상기 제1유사도대표정보는 상기 추론모델부(1700)에 입력하기 위한 입력정보에 포함될 수 있고, 구체적으로는 입력정보 가운데 예측대상약물과 예측대상부작용이 있다고 알려진 복수의 기존약물과의 유사도에 대한 입력 요소에 해당할 수 있다.In this way, the first similarity representative information derived through the first similarity representative
한편, 상기 제2유사도도출부(1400)는 상기 예측대상부작용 및 상기 예측대상약물에 의하여 발현될 수 있는 것으로 알려져 있는 복수의 기존부작용 각각에 대한 제2유사도값을 도출하는 단계(S120)를 수행한다.Meanwhile, the second
구체적으로, 상기 제2유사도값을 도출하는 단계(S120)는 상기 예측대상부작용과 상기 복수의 기존부작용 각각에 대해 특정 카테고리에 대한 제2유사도값을 도출한다. 따라서, 상기 특정 카테고리에는 복수의 기존부작용의 개수에 해당하는 복수의 제2유사도값이 도출될 수 있다.Specifically, in the step of deriving the second similarity value (S120), a second similarity value for a specific category is derived for each of the predicted target side effect and the plurality of existing side effects. Accordingly, a plurality of second similarity values corresponding to the number of a plurality of existing side effects may be derived for the specific category.
즉, 상기 제2유사도값을 도출하는 단계(S120)는 예측대상약물에 대한 예측대상부작용의 발현가능성에 대한 정보를 도출하기 위하여 상기 예측대상부작용과 타 부작용들 간의 유사도를 측정할 수 있다.That is, in the step of deriving the second similarity value (S120), the degree of similarity between the predicted side effect and other side effects may be measured in order to derive information on the possibility of occurrence of the predicted side effect for the predicted drug.
한편, 상기 예측대상약물에 대하여 알려져 있는 복수의 기존부작용에 대한 정보는 사용자에 의해 컴퓨팅장치(1000)에 사전에 입력되거나 혹은 참조데이터베이스(2000)와 같이 외부의 데이터베이스로 해당 정보들을 접근 혹은 수신할 수 있다.On the other hand, information on a plurality of known side effects of the drug to be predicted may be entered into the
상기 제2유사도대표정보도출부(1500)는 상기 제2유사도도출부(1400)에서 도출한 복수의 제2유사도값에 기초하여 제2유사도대표정보를 도출하는 단계(S130)를 수행한다.The second similarity representative
구체적으로, 상기 제2유사도대표정보를 도출하는 단계(S130)는 복수의 제2유사도값 가운데 최대값을 갖는 제2유사도값을 상기 제2유사도대표정보로 도출하며, 따라서 상기 제2유사도대표정보도출부(1500)를 통해 도출된 상기 제2유사도대표정보는 상기 추론모델부(1700)에 입력하기 위한 입력정보에 포함될 수 있고, 구체적으로는 입력정보 가운데 예측대상부작용과 예측대상약물에 의해 발현될 수 있는 것으로 알려진 복수의 기존부작용과의 유사도에 대한 입력 요소에 해당할 수 있다.Specifically, in the step of deriving the second similarity representative information (S130), a second similarity value having the maximum value among a plurality of second similarity values is derived as the second similarity representative information, and thus the second similarity representative information. The second similarity representative information derived through the
이와 같이, 상기 단계 S100 내지 단계 S130을 통해 예측대상약물과 기존약물들 사이의 유사도 및 예측대상부작용과 기존부작용들 사이의 유사도를 측정하여, 상기 제1유사도대표정보 및 상기 제2유사도대표정보를 도출하고, 이에 기초하여 상기 발현가능예측부에서 상기 예측대상약물에 대한 상기 예측대상부작용의 발현가능성에 대한 정보를 도출하므로, 종래의 부작용을 예측하는 방법과 비교하여 다양한 카테고리에 대한 유사도를 고려하여 발현가능성에 대한 정보를 도출할 수 있게 된다.In this way, by measuring the similarity between the predicted target drug and the existing drugs and the similarity between the predicted target side effect and the existing side effects through the steps S100 to S130, the first similarity representative information and the second similarity representative information And based on this, information on the possibility of occurrence of the side effect to be predicted for the drug to be predicted is derived from the occurrence possibility prediction unit. It is possible to derive information on the possibility of occurrence.
한편, 상기 단계 S100 내지 단계 S130을 통해 컴퓨팅장치(1000)는 제1유사도대표정보 및 제2유사도대표정보만을 도출하는 것이 아니라, 상기 추론모델부(1700)가 학습하기 위한 학습데이터 및 상기 학습데이터에 의해 학습된 추론모델부(1700)를 검증하기 위한 검증데이터를 도출할 수도 있다.Meanwhile, through the steps S100 to S130, the
구체적으로, 상기 학습데이터에는 특정 약물과 특정 부작용을 쌍으로 하는 복수의 샘플에 대한 제1유사도대표학습정보 및 제2유사도대표학습정보를 포함할 수 있고, 이와 같은 경우, 상술한 단계 S100 내지 단계 S110에서는 상기 샘플의 특정 약물을 상기 예측대상약물로 하고, 상기 샘플의 특정 부작용을 상기 예측대상부작용으로 하여 제1유사도대표정보를 도출할 수 있고, 도출된 상기 제1유사도대표정보는 상기 제1유사도대표학습정보에 해당할 수 있다. 마찬가지로, 상술한 단계 S120 내지 단계 S130에서는 상기 특정 약물 및 상기 특정 부작용에 대한 제2유사도대표학습정보를 도출할 수 있고, 도출된 상기 제2유사도대표정보는 상기 제2유사도대표학습정보에 해당할 수 있다.Specifically, the learning data may include first similarity representative learning information and second similarity representative learning information for a plurality of samples pairing a specific drug with a specific side effect, and in this case, the above-described steps S100 to S100. In S110, first similarity representative information may be derived by using a specific drug of the sample as the predicted target drug and a specific side effect of the sample as the predicted target side effect, and the derived first similarity representative information is the first similarity representative information. It may correspond to similarity representative learning information. Similarly, in the above steps S120 to S130, the second similarity representative learning information for the specific drug and the specific side effect may be derived, and the derived second similarity representative learning information may correspond to the second similarity representative learning information. can
또한, 상술한 바와 동일하게 상기 검증데이터에도 특정 약물과 특정 부작용을 쌍으로 하는 복수의 샘플에 대한 제1유사도대표검증정보 및 제2유사도대표검증정보를 포함할 수 있고, 이는 상술한 단계 S100 내지 단계 S130을 통해 도출할 수 있다.In addition, as described above, the verification data may also include first similarity representative verification information and second similarity representative verification information for a plurality of samples in which a specific drug and a specific side effect are paired. It can be derived through step S130.
마지막으로, 상기 발현가능성예측부(1600)는 도출된 상기 제1유사도대표정보 및 상기 제2유사도대표정보를 학습된 추론모델부(1700)에 입력하여 예측대상약물에 대한 예측대상부작용의 발현가능성에 대한 정보를 도출하는 단계(S140)를 수행한다.Finally, the occurrence
상기 발현가능성에 대한 정보를 도출하는 단계(S140)에서는 학습된 추론모델부(1700)를 통해 도출된 결과값을 상기 발현가능성에 대한 정보로 사용하거나 혹은 상기 결과값에 기초하여 별도의 발현가능성에 대한 정보를 도출할 수도 있다.In the step of deriving information on the possibility of occurrence (S140), the result value derived through the learned
도 4는 본 발명의 일 실시예에 따른 약물과 약물 간의 상호관계를 개략적으로 도시한다.Figure 4 schematically shows a drug-to-drug relationship according to an embodiment of the present invention.
도 4에 도시된 바와 같이, 상기 제1유사도값을 도출하는 단계(S100)는, 약물이 영향을 주거나, 혹은 영향을 받는 1 이상의 타 약물간의 상호관계를 제1카테고리로 포함하고, 상기 예측대상약물이 영향을 주거나, 혹은 영향을 받는 1 이상의 타 약물간의 상호관계 및 상기 복수의 기존약물 각각이 영향을 주거나, 혹은 영향을 받는 1 이상의 타 약물간의 상호관계 사이의 상기 제1카테고리에 대한 제1유사도값을 도출할 수 있다.As shown in FIG. 4, the step of deriving the first similarity value (S100) includes, as a first category, a correlation between one or more other drugs that the drug affects or is affected by, and the prediction target The first for the first category between the mutual relationship between one or more other drugs that the drug affects or is affected and the mutual relationship between one or more other drugs that each of the plurality of existing drugs affects or is affected by. A similarity value can be derived.
구체적으로, 상기 제1유사도값을 도출하는 단계(S100)는, 약물이 1 이상의 타 약물에 영향을 주거나, 혹은 1 이상의 타 약물에 의해 영향을 받는 상호관계를 제1카테고리로하고, 상기 제1카테고리에 대한 예측대상약물 및 복수의 기존약물 각각에 대한 복수의 제1유사도값을 도출한다.Specifically, in the step of deriving the first similarity value (S100), a drug affects one or more other drugs, or a correlation influenced by one or more other drugs is set as a first category, and the first category A plurality of first similarity values for each of the prediction target drug and the plurality of existing drugs for the category are derived.
약물과 타 약물간의 상호관계(DDIs-D)에 대한 제1카테고리는 유사한 약물들 각각은 타 약물들과 비슷한 반응을 보이는 경향을 고려한 카테고리에 해당한다. 도 4에 도시된 바와 같이, 각 약물별 상호관계는 (x,y,z) 형태로 표현할 수 있고, x는 상호관계를 갖는 타 약물을 의미하고, y는 상호관계의 유형을 의미하며, z는 타 약물에 영향을 주는지, 혹은 타 약물에 의해 영향을 받는지를 의미한다.The first category for the interaction between drugs and other drugs (DDIs-D) corresponds to a category considering the tendency that each similar drug shows a similar reaction to other drugs. As shown in FIG. 4, the correlation between each drug can be expressed in the form of (x, y, z), where x means another drug having a correlation, y means the type of correlation, and z indicates whether it affects other drugs or is affected by other drugs.
예를 들어, 약물 A에 대한 상호관계 가운데 (B,1,←)는 약물 A가 약물 B에 의해 유형 1의 영향을 받음을 의미한다. 이와 같이, 컴퓨팅장치(1000)에는 외부 데이터베이스의 정보에 기초하여 각 약물별 상호관계에 대한 정보들이 저장되어 있고, 상기 제1유사도값을 도출하는 단계(S100)는 예측대상약물에 대한 상호관계와 예측대상부작용이 발현될 수 있다고 알려져 있는 복수의 기존약물 각각에 대한 상호관계의 유사도에 해당하는 상기 제1카테고리에 대한 복수의 제1유사도값을 도출할 수 있다.For example, among the correlations for drug A, (B,1,←) means that drug A is affected in
도 5는 본 발명의 일 실시예에 따른 약물이 타겟으로 하는 복수의 타겟유전자 사이의 상호작용 경로를 개략적으로 도시한다.5 schematically shows an interaction pathway between a plurality of target genes targeted by a drug according to an embodiment of the present invention.
도 5에 도시된 바와 같이, 상기 제1유사도값을 도출하는 단계(S100)는, 약물이 타겟으로 하는 복수의 타겟유전자 사이의 상호작용 경로에 포함되는 유전자 및 단백질에 대한 노드정보를 제2카테고리로 포함하고, 상기 예측대상약물에 대한 노드정보 및 상기 복수의 기존약물 각각의 노드정보 사이의 상기 제2카테고리에 대한 제1유사도값을 도출할 수 있다.As shown in FIG. 5, in the step of deriving the first similarity value (S100), node information on genes and proteins included in the interaction pathway between a plurality of target genes targeted by the drug is classified as a second category. , and a first similarity value for the second category between node information on the drug to be predicted and node information on each of the plurality of existing drugs can be derived.
구체적으로, 상기 제1유사도값을 도출하는 단계(S100)는, 약물이 투약되어 인체 내에서 타겟으로 하는 복수의 타겟유전자 사이의 상호작용 경로에 포함되는 단백질, 유전자, 혹은 대사물질에 대한 노드정보를 제2카테고리로 하고, 상기 제2카테고리에 대한 예측대상약물 및 복수의 기존약물 각각에 대한 복수의 제1유사도값을 도출한다.Specifically, in the step of deriving the first similarity value (S100), node information on proteins, genes, or metabolites included in the interaction path between a plurality of target genes targeted in the human body after the drug is administered. as a second category, and a plurality of first similarity values for each of the drug to be predicted and a plurality of existing drugs for the second category are derived.
약물의 타겟유전자들 사이의 상호작용 경로의 노드정보(DDIs-N)에 대한 제2카테고리는 2 개의 약물 사이의 인체내에서의 기능적 유사도를 고려한 카테고리에 해당한다. 도 5에 도시된 바와 같이, 각 약물들은 최초로 영향을 미치는 1 이상의 타겟유전자(TGA 및 TGB)가 존재하고, 최초의 타겟유전자(TGA 및 TGB)에서부터 최종적으로 영향을 받는 타겟유전자(TGC 및 TGD)까지의 소정의 네트워크 경로를 따라 약물의 효과가 전파될 수 있다.The second category for the node information (DDIs-N) of the interaction pathway between drug target genes corresponds to a category considering the functional similarity between two drugs in the human body. As shown in FIG. 5, each drug has one or more target genes (TG A and T B ) that are initially affected, and from the first target genes (TG A and T B) to the finally affected target genes (TG A and T B ). TG C and TG D ) can propagate the effect of the drug along a predetermined network pathway.
한편 타겟유전자 사이의 네트워크 경로에는 노드에 해당하는 단백질, 유전자 혹은 대사물질(P1 내지 P7)이 존재하고, 상기 제2카테고리에 대한 제1유사도값은 예측대상약물 및 기존약물 각각의 최초 타겟유전자(TGA 및 TGB)에서부터 최종 타겟유전자(TGC 및 TGD) 사이의 상호작용 경로에 포함되는 노드(P1 내지 P7)들에 대한 정보의 유사도에 해당할 수 있다.Meanwhile, proteins, genes, or metabolites (P1 to P7) corresponding to nodes exist in the network path between target genes, and the first similarity value for the second category is the first target gene of each predicted drug and existing drug ( It may correspond to similarity of information about nodes (P1 to P7) included in an interaction path between T A and T B ) and the final target genes (TG C and TG D ).
예를 들어, 도 5에 도시된 약물 A는 TGA 및 TGB를 최초 타겟유전자로 하고, 최초 타겟유전자 TGA는 최종 타겟유전자인 TGC와 노드 P1, P4, 및 P6을 거쳐 상호작용할 수 있고, 최초 타겟유전자 TGB는 최종 타겟유전자인 TGD와 노드 P3, P4, P5, 및 P7을 거쳐 상호작용할 수 있다. 따라서 약물 A의 노드정보에는 상기와 같이 최초 타겟유전자 및 최종 타겟유전자 사이의 경로를 구성하는 단백질, 유전자, 또는 대사물질에 대한 정보들을 포함한다.For example, drug A shown in FIG. 5 has TGA and TGA as initial target genes, and the initial target gene, TGA , can interact with the final target gene, TG C , via nodes P1, P4, and P6, , the first target gene T B can interact with the final target gene TG D via nodes P3, P4, P5, and P7. Therefore, the node information of drug A includes information on proteins, genes, or metabolites constituting the pathway between the initial target gene and the final target gene as described above.
따라서 상기 컴퓨팅장치(1000)에는 외부 데이터베이스의 정보에 기초하여 각 약물별 노드정보들이 저장되어 있고, 상기 제1유사도값을 도출하는 단계(S100)는 예측대상약물의 노드정보와 예측대상부작용이 발현될 수 있다고 알려져 있는 복수의 기존약물 각각에 대한 노드정보의 유사도에 해당하는 상기 제2카테고리에 대한 복수의 제1유사도값을 도출할 수 있다.Therefore, node information for each drug is stored in the
본 발명의 다른 실시예에서는 상기 노드정보에는 최초 타겟유전자 및 최종 타겟유전자 사이의 경로에 해당하는 단백질, 유전자, 혹은 대사물질에 대한 정보 및 상기 최초 타겟유전자 혹은 상기 최종 타겟유전자에 대한 정보를 더 포함할 수 있다.In another embodiment of the present invention, the node information further includes information on proteins, genes, or metabolites corresponding to the pathway between the first target gene and the final target gene, and information on the first target gene or the final target gene. can do.
본 발명의 또 다른 실시예에서는 최초 타겟유전자에서부터 최종 타겟유전자까지의 경로들은 복수 개 존재할 수 있고, 이와 같은 경우 최초 타겟유전자에서부터 최종 타겟유전자까지의 경로들 가운데 최단 경로를 노드정보로 할 수 있다.In another embodiment of the present invention, a plurality of paths may exist from the first target gene to the final target gene, and in this case, among the paths from the first target gene to the final target gene, the shortest path may be used as node information.
본 발명에서의 타겟유전자는 인체의 특정 유전자를 지칭할 수 있으나 이에 한정되지 않고, 특정 단백질, 혹은 특정 대사물질의 개념을 포함할 수도 있다.The target gene in the present invention may refer to a specific gene in the human body, but is not limited thereto, and may include a specific protein or a specific metabolite.
한편, 도 5에 도시된 바와 같이, 상기 제1유사도값을 도출하는 단계(S100)는 약물이 타겟으로 하는 복수의 타겟유전자에 대한 타겟유전자정보를 제5카테고리로 포함하고, 상기 예측대상약물에 대한 타겟유전자정보 및 상기 복수의 기존약물 각각에 대한 타겟유전자정보 사이의 상기 제5카테고리에 대한 제1유사도값을 도출할 수 있다.On the other hand, as shown in FIG. 5, the step of deriving the first similarity value (S100) includes target gene information for a plurality of target genes targeted by the drug as a fifth category, and A first similarity value for the fifth category between the target gene information for the drug and the target gene information for each of the plurality of existing drugs may be derived.
구체적으로, 상기 제1유사도값을 도출하는 단계(S100)는, 약물이 타겟으로 하는 복수의 타겟유전자에 대한 타겟유전자정보(Target)를 제5카테고리로 하고, 상기 제5카테고리에 대한 예측대상약물 및 복수의 기존약물 각각에 대한 복수의 제1유사도 값을 도출한다.Specifically, in the step of deriving the first similarity value (S100), the target gene information (Target) for a plurality of target genes targeted by the drug is set as the fifth category, and the predicted target drug for the fifth category and a plurality of first similarity values for each of the plurality of existing drugs are derived.
약물의 복수의 타겟유전자에 대한 제5카테고리는 약물의 생물학적 특성, 즉 2 개의 약물들이 동일한 타겟유전자와 관련된 경우 상기 2 개의 약물들은 유사한 생물학적 과정을 거치므로 동일한 부작용을 가지는 경향을 고려한 카테고리에 해당한다.The fifth category for a plurality of target genes of a drug corresponds to a category that considers the biological characteristics of the drug, that is, when two drugs are related to the same target gene, the two drugs undergo similar biological processes and thus have the same side effects. .
따라서 상기 컴퓨팅장치(1000)에는 외부 데이터베이스의 정보에 기초하여 각 약물별 복수의 타겟유전자에 대한 정보들이 저장되어 있고, 상기 제1유사도값을 도출하는 단계(S100)는 예측대상약물의 타겟유전자정보와 예측대상부작용이 발현될 수 있다고 알려져 있는 복수의 기존약물 각각에 대한 타겟유전자정보의 유사도에 해당하는 상기 제5카테고리에 대한 복수의 제1유사도값을 도출할 수 있다.Therefore, information on a plurality of target genes for each drug is stored in the
한편, 상기 타겟유전자정보는 상술한 바와 같이, 최초 타겟유전자(TGA 및 TGB) 및 최종 타겟유전자(TGC 및 TGD)에 대한 정보를 포함할 수 있으나, 바람직하게는 상기 타겟유전자정보는 최초 타겟유전자(TGA 및 TGB)에 대한 정보만을 포함할 수도 있다.On the other hand, as described above, the target gene information may include information on the first target genes (TG A and T B ) and the final target genes (TG C and TG D ), but preferably the target gene information It may also include only information on the first target genes (TG A and T B ).
도 6은 본 발명의 일 실시예에 따른 약물에 대한 발현유전자정보를 개략적으로 도시한다.6 schematically shows expression gene information for a drug according to an embodiment of the present invention.
도 6에 도시된 바와 같이, 상기 제1유사도값을 도출하는 단계(S100)는, 약물에 관련된 1 이상의 질병 각각에 관련된 SNP(Single Nucleotide Polymorphism)가 발현되는 1 이상의 유전자에 대한 발현유전자정보를 제3카테고리로 포함하고, 상기 예측대상약물에 대한 발현유전자정보 및 상기 복수의 기존약물 각각에 대한 발현유전자정보 사이의 상기 제3카테고리에 대한 제1유사도값을 도출할 수 있다.As shown in FIG. 6, the step of deriving the first similarity value (S100) provides expression gene information for one or more genes in which a single nucleotide polymorphism (SNP) associated with each of one or more drug-related diseases is expressed. 3 categories, and a first similarity value for the third category between the expression gene information for the predicted drug and the expression gene information for each of the plurality of existing drugs can be derived.
구체적으로, 상기 제1유사도값을 도출하는 단계(S100)는, 약물과 관련된 1 이상의 질병 각각에 관련된 SNP가 발현되는 1 이상의 유전자에 대한 발현유전자정보를 제3카테고리로하고, 상기 제3카테고리에 대한 예측대상약물 및 복수의 기존약물 각각에 대한 복수의 제1유사도값을 도출한다.Specifically, in the step of deriving the first similarity value (S100), expression gene information for one or more genes in which SNPs related to each of one or more diseases related to drugs is expressed as a third category, and A plurality of first similarity values for each of a prediction target drug and a plurality of existing drugs are derived.
약물의 발현유전자정보(SNP)에 대한 제3카테고리는 2 개의 약물에 관계된 질병의 유전적 특성이 유사한 경우 유사한 부작용을 가질 수 있음을 고려한 카테고리에 해당한다. SNP 즉, 단일염기다형성(Single Nucleotide Polymorphism)은 인간의 개별적 다양성을 결정하는 요소에 해당하며, SNP는 인간의 유전체에서 대략 1000개의 염기마다 1개꼴로 나타나는데 이에 의하여 개인의 유전적 다양성이 발현된다. 구체적으로, DNA사슬의 특정 위치에 C(씨토신)을 가지고 있는 사람이 존재하고 A(아데닌)을 가지고 있는 사람이 존재할 수 있으며, 이러한 차이에 의해 개인의 다양성이 발현될 수 있다. 이렇게 SNP에 의해 발현되는 유전적 다양성은 질병에 대한 감수성 측면에서도 활용될 수 있다. 특정 질병에 대하여 사람마다의 유전적 다양성에 의하여 감수성이 다르게 나타날 수 있다.The third category for drug expression gene information (SNP) corresponds to a category considering that similar side effects may occur when the genetic characteristics of diseases related to two drugs are similar. SNP, that is, single nucleotide polymorphism (SNP) corresponds to a factor that determines the individual diversity of humans, and SNPs appear in about one out of every 1000 bases in the human genome, whereby individual genetic diversity is expressed. Specifically, there may be people who have C (cytosine) and people who have A (adenine) at specific positions in the DNA chain, and individual diversity can be expressed by these differences. The genetic diversity expressed by SNPs can also be utilized in terms of susceptibility to disease. The susceptibility to a specific disease may appear differently depending on the genetic diversity of each person.
이에 따라, 도 6에 도시된 바 같이, 각 약물(Drug A)별로 해당 약물(Drug A)과 연관된 1 이상의 질병(질병1 내지 질병N)들이 존재하고, 각 질병(질병1 내지 질병N)의 감수성과 관련된 SNP가 존재할 수 있고, 각 SNP가 발현될 수 있는 유전자(Gene1 내지 Gene2), 즉 각 약물에 대한 발현유전자가 존재할 수 있다.Accordingly, as shown in FIG. 6, for each drug (Drug A), one or more diseases (
따라서, 상기 컴퓨팅장치(1000)에는 외부 데이터베이스의 정보에 기초하여 각 약물별 복수의 발현유전자에 대한 정보들이 저장되어 있고, 상기 제1유사도값을 도출하는 단계(S100)는 예측대상약물의 발현유전자정보와 예측대상부작용이 발현될 수 있다고 알려져 있는 복수의 기존약물 각각에 대한 발현유전자정보의 유사도에 해당하는 상기 제3카테고리에 대한 복수의 제1유사도값을 도출할 수 있다.Therefore, information on a plurality of expression genes for each drug is stored in the
도 7은 본 발명의 일 실시예에 따른 약물에 관련된 증상정보를 개략적으로 도시한다.7 schematically illustrates symptom information related to drugs according to an embodiment of the present invention.
도 7에 도시된 바와 같이, 상기 제1유사도값을 도출하는 단계(S100)는, 약물에 관련된 1 이상의 증상 혹은 질병에 대한 증상정보를 제4카테고리로 포함하고, 상기 예측대상약물에 대한 증상정보 및 상기 복수의 기존약물 각각에 대한 증상정보 사이의 상기 제4카테고리에 대한 제1유사도값을 도출할 수 있다.As shown in FIG. 7, the step of deriving the first similarity value (S100) includes symptom information on one or more symptoms or diseases related to a drug as a fourth category, and symptom information on the predicted drug. And a first similarity value for the fourth category between symptom information for each of the plurality of existing drugs may be derived.
구체적으로, 상기 제1유사도값을 도출하는 단계(S100)는, 약물과 관련된 1 이상의 증상 혹은 질병에 해당하는 적응증(Indication)에 대한 증상정보를 제4카테고리로 하고, 상기 제4카테고리에 대한 예측대상약물 및 복수의 기존약물 각각에 대한 복수의 제1유사도값을 도출한다.Specifically, in the step of deriving the first similarity value (S100), symptom information on an indication corresponding to one or more symptoms or diseases related to a drug is set as a fourth category, and prediction for the fourth category is made. A plurality of first similarity values for each of the target drug and a plurality of existing drugs are derived.
약물의 증상정보에 대한 제4카테고리는 약물 간의 표현형적 특성의 유사도를 고려한 카테고리에 해당하고, 적응증(Indication)은 약물에 의해 치료효과가 기대되는 병이나 증상을 의미한다.The fourth category for symptom information of drugs corresponds to a category considering the similarity of phenotypic characteristics between drugs, and indication refers to a disease or symptom for which a therapeutic effect is expected by a drug.
따라서, 도 7에 도시된 바와 같이, 각 약물별로 해당 약물에 관련된 1 이상의 증상 혹은 질병에 대한 증상정보가 존재할 수 있다. 예를 들어, 도 7에 도시된 Drug A에 대한 증상정보는 질환A, 질환B, 증상A, 증상D를 포함할 수 있다. 이와 같이 컴퓨팅장치(1000)에는 외부 데이터베이스의 정보에 기초하여 각 약물별 증상정보들이 저장되어 있고, 상기 제1유사도값을 도출하는 단계(S100)는 예측대상약물에 대한 증상정보와 상기 예측대상부작용이 발현될 수 있다고 알려져 있는 복수의 기존약물 각각에 대한 증상정보의 유사도에 해당하는 상기 제4카테고리에 대한 복수의 제1유사도값을 도출할 수 있다.Accordingly, as shown in FIG. 7 , symptom information on one or more symptoms or diseases related to each drug may exist for each drug. For example, the symptom information for Drug A shown in FIG. 7 may include disease A, disease B, symptom A, and symptom D. As described above, symptom information for each drug is stored in the
상술한 도 4 내지 도 7에서와 같이 상기 제1유사도값을 도출하는 단계(S100)는 상술한 제1카테고리 내지 제5카테고리를 상기 2 이상의 카테고리에 포함하고, 상기 제1카테고리 내지 상기 제5카테고리별로 복수의 제1유사도값을 도출할 수 있다. 이와 같이, 카테고리별로 도출된 복수의 제1유사도값에 기초하여 제1유사도대표정보를 도출할 수 있으며, 상기 제1유사도대표정보를 도출하는 단계(S110)에 대해서는 도 9에서 상세하게 설명하도록 한다.As in the above-described FIGS. 4 to 7, the step of deriving the first similarity value (S100) includes the above-described first to fifth categories in the two or more categories, and the first to fifth categories A plurality of first similarity values may be derived for each. In this way, the first similarity representative information can be derived based on the plurality of first similarity values derived for each category, and the step (S110) of deriving the first similarity representative information will be described in detail with reference to FIG. 9 .
한편, 본 발명의 다른 실시예에서는 상기 제1유사도값을 도출하는 단계(S100)는, 약물의 화학적 구조에 대한 정보를 제6카테고리로 포함하고, 상기 예측대상약물에 대한 화학적 구조에 대한 정보 및 상기 복수의 기존약물 각각에 대한 화학적 구조에 대한 정보 사이의 상기 제6카테고리에 대한 제1유사도값을 추가적으로 도출할 수도 있다.Meanwhile, in another embodiment of the present invention, the step of deriving the first similarity value (S100) includes information on the chemical structure of the drug as a sixth category, information on the chemical structure of the predicted drug, and A first similarity value for the sixth category between information on the chemical structure of each of the plurality of existing drugs may be additionally derived.
따라서, 본 발명의 일 실시예에서는 약물과 약물 사이의 유사도를 복수의 카테고리별로 측정하므로 약물에 대한 부작용을 더욱 정확하게 예측할 수 있는 효과를 발휘할 수 있다.Therefore, in one embodiment of the present invention, since the degree of similarity between drugs is measured for each of a plurality of categories, side effects of drugs can be more accurately predicted.
도 8은 본 발명의 일 실시예에 따른 해부학적으로 구분된 복수의 계층에 따라 부작용이 발현되는 계층요소들을 개략적으로 도시한다.8 schematically illustrates hierarchical elements in which side effects are expressed according to a plurality of anatomically divided hierarchies according to an embodiment of the present invention.
도 8에 도시된 바와 같이, 상기 제2유사도값을 도출하는 단계(S120)는, 해부학적으로 구분된 복수의 계층별로, 상기 예측대상부작용이 발현되는 계층요소의 종류 및 각각의 상기 기존부작용이 발현되는 계층요소의 종류에 기초하여 상기 제2유사도값을 도출할 수 있다.As shown in FIG. 8, in the step of deriving the second similarity value (S120), for each of a plurality of anatomically divided layers, the type of layer element in which the predicted target side effect is expressed and each of the existing side effects The second similarity value may be derived based on the type of hierarchical elements that are expressed.
구체적으로, 도 8의 (A)에 도시된 바와 같이, 각각의 부작용을 해부학적으로 분류된 소정의 계층에 따라 분류할 수 있다. 도 8의 (A)에서는 3 개의 계층, 기관(Organs), 하위계통(Subsystems), 및 계통(Systems)으로 구분하였고, 도 8의 (B)는 해부학적으로 분류된 소정의 계층별로 부작용이 발현되는 계층요소들의 종류들을 도시하였다.Specifically, as shown in (A) of FIG. 8 , each side effect may be classified according to a predetermined hierarchy classified anatomically. In (A) of FIG. 8, it is divided into three classes, Organs, Subsystems, and Systems, and in (B) of FIG. 8, side effects are expressed for each anatomically classified class. The types of hierarchical elements that are used are shown.
해부학적으로 분류된 소정의 계층에 따라 복수의 계층요소들이 존재할 수 있다. 예를 들어, 기관(Organs) 계층에는 심장, 간, 폐 등의 계층요소들이 존재하고, 계통(Systems) 계층에는 호흡기계통, 근육계통, 소화계통 등의 계층요소 들이 존재할 수 있다. 한편, 각각의 부작용은 해부학적으로 분류된 계층별 특정 계층요소에 영향을 줄 수 있다. 예를 들어, 도 8의 (B)에 도시된 바와 같이, 부작용 1은 기관(Organs) 계층에서는 해당 계층의 계층요소인 A1, A3, 및 A4에 영향을 줄 수 있고, 하위계통(Subsystems) 계층에서는 해당 계층의 계층요소인 B2, 및 B3에 영향을 줄 수 있고, 계통(Systems) 계층에서는 해당 계층의 계층요소인 C1, C4, 및 C5에 영향을 줄 수 있다. 이와 같이, 부작용을 해부학적으로 분류된 소정의 계층별 계층요소로 구분하는 것은 유사한 부작용들은 유사한 해부학적 수준과 연관되어 있음을 고려한 것이다.A plurality of hierarchical elements may exist according to a predetermined anatomically classified hierarchy. For example, hierarchical elements such as the heart, liver, and lungs may exist in the Organs hierarchy, and hierarchical elements such as the respiratory system, muscular system, and digestive system may exist in the Systems hierarchy. Meanwhile, each side effect may affect a specific hierarchical element for each anatomically classified hierarchy. For example, as shown in (B) of FIG. 8,
한편 예를 들어, 특정 부작용이 기관(Organs) 계층의 계층요소인 폐에 영향을 주고, 폐가 속해 있는 호흡기계통에도 영향을 주는 경우에 이를 호흡기계통에만 영향을 주는 것으로 분류하지 않고, 각각 독립적으로 구분하여 특정 부작용은 기관(Organs) 계층의 폐와 계통(Systems) 계층의 호흡기계통 각각에 영향을 주는 것으로 분류할 수 있다.On the other hand, for example, if a specific side effect affects the lungs, which is a hierarchical element of the Organs hierarchy, and also affects the respiratory system to which the lungs belong, it is not classified as affecting only the respiratory system, but each is classified independently. Therefore, specific side effects can be classified as those affecting the lungs in the Organs hierarchy and the respiratory system in the Systems hierarchy, respectively.
따라서, 상기 컴퓨팅장치(1000)에는 외부 데이터베이스의 정보에 기초하여 각 부작용에 대하여 해부학적으로 구분된 복수의 계층별로 해당 부작용이 발현될 수 있는 계층요소의 종류들이 저장되어 있고, 상기 제2유사도값을 도출하는 단계(S120)는 예측대상부작용의 계층요소의 종류와 예측대상약물에 의해 발현될 수 있다고 알려져 있는 복수의 기존부작용 각각에 대한 계층요소의 종류의 유사도에 해당하는 복수의 제2유사도값을 도출할 수 있다.Therefore, the
한편, 도 8에서는 3 개의 해부학적으로 구분된 계층을 도시하였으나, 이에 한정되지 아니하고, 본 발명의 다른 실시예에서는 2 이상의 해부학적으로 구분된 계층들을 사용할 수도 있다.Meanwhile, although three anatomically separated layers are shown in FIG. 8, the present invention is not limited thereto, and two or more anatomically divided layers may be used in another embodiment of the present invention.
도 9는 본 발명의 일 실시예에 따른 카테고리별 복수의 제1유사도값 및 복수의 제2유사도값에서 제1유사도대표정보 및 제2유사도대표정보를 도출하는 과정을 개략적으로 도시한다.9 schematically illustrates a process of deriving first similarity representative information and second similarity representative information from a plurality of first similarity values and a plurality of second similarity values for each category according to an embodiment of the present invention.
도 9의 (A)는 예측대상약물과 상기 복수의 기존약물 각각에 대하여 2 이상의 카테고리별로 제1유사도값을 도시한 도면에 해당한다. 구체적으로 도 9의 (A)의 좌상단에 도시된 것과 같이, 예측대상부작용(초록색 다이아몬드)이 예측대상약물(적색 계열 약물)에 의해 발현될 수 있는지를 예측하기 위하여, 하단에 도시된 바와 같이, 상기 예측대상부작용(초록색 다이아몬드)이 발현될 수 있는 것으로 알려진 4 개의 기존약물과 상기 예측대상약물(적색 계열 약물) 사이의 2 이상의 카테고리별 제1유사도값을 도출할 수 있다.9(A) corresponds to a diagram showing a first similarity value for each of two or more categories with respect to a drug to be predicted and each of the plurality of existing drugs. Specifically, as shown in the upper left of FIG. 9 (A), in order to predict whether the predicted target side effect (green diamond) can be expressed by the predicted target drug (red drug), as shown at the bottom, A first similarity value for each of two or more categories may be derived between the four existing drugs known to have the expected side effects (green diamonds) and the predicted target drug (red-type drug).
이를 위해, 상기 제1유사도값을 도출하는 단계(S100)는, 상기 카테고리별로, 상기 예측대상약물의 해당 카테고리에 대한 정보 및 각각의 상기 기존약물의 해당 카테고리에 대한 정보 사이의 교집합의 원소 수를 합집합의 원소 수로 나눈 값을 상기 제1유사도값으로 산출할 수 있다.To this end, in the step of deriving the first similarity value (S100), for each category, the number of elements of the intersection between the information on the corresponding category of the drug to be predicted and the information on the corresponding category of each existing drug is determined. A value divided by the number of elements in the union may be calculated as the first similarity value.
구체적으로, 상기 제1유사도값을 도출하는 단계(S100)는 아래의 식 (1)을 사용하여 예측대상약물과 기존약물 간의 카테고리별 제1유사도값을 산출할 수 있다.Specifically, in the step of deriving the first similarity value (S100), the first similarity value for each category between the drug to be predicted and the existing drug may be calculated using Equation (1) below.
- 식 (1) - formula (1)
위의 식 (1)은 약물 DA 및 약물 DB에 대한 제1유사도값을 산출하기 위한 것으로, 특정 카테고리에 대한 약물 DA의 정보의 집합 SA 및 약물 DB의 정보의 집합 SB에 대하여 집합 SA 및 집합 SB의 교집합의 원소 수를 집합 SA 및 집합 SB의 합집합의 원소 수로 나눈 값이 해당 특정 카테고리에 대한 약물 DA 및 약물 DB사이의 제1유사도값에 해당할 수 있고, 상기 제1유사도값의 범위는 두 약물이 완전히 유사하지 않는 경우 0의 값을 갖고, 완전히 유사한 경우에는 1의 값을 갖게 된다.Equation (1) above is for calculating the first similarity value for drug D A and drug D B , and the set of drug D A information set S A and drug DB information set S B for a specific category The value obtained by dividing the number of elements in the intersection of sets S A and S B by the number of elements in the union of sets S A and S B corresponds to the first similarity value between drugs D A and drugs D B for that particular category. The range of the first similarity value has a value of 0 when the two drugs are not completely similar, and has a value of 1 when the two drugs are completely similar.
바람직하게는 상기 식 (1)은 상술한 제1카테고리 내지 제5카테고리에 대한 제1유사도값을 산출하는데 사용될 수 있고, 상술한 약물의 화학적 구조에 대한 제6카테고리에 대해서는 타니모토 계수(Tanimoto coefficient)를 산출하기 위한 별도의 식을 통해 산출할 수도 있다.Preferably, the above formula (1) can be used to calculate the first similarity value for the above-mentioned first to fifth categories, and the Tanimoto coefficient for the above-mentioned sixth category for the chemical structure of the drug. ) can also be calculated through a separate formula for calculating .
따라서, 도 9의 (A)에 도시된 바와 같이, 제1카테고리(DDIs-D)에 대한 상기 예측대상약물 및 기존약물들의 제1유사도값은 위에서부터 순서대로, 0.23, 0.87, 0.79, 0.44가 산출되었고, 제5카테고리(Target)에 대한 상기 예측대상약물 및 기존약물들의 제1유사도값은 위에서부터 순서대로, 0.45, 0.71, 0.24, 0.95가 산출되었다.Therefore, as shown in (A) of FIG. 9, the first similarity values of the drug to be predicted and existing drugs for the first category (DDIs-D) are 0.23, 0.87, 0.79, and 0.44, in order from the top. and the first similarity values of the predicted drug and existing drugs for the fifth category (Target) were calculated as 0.45, 0.71, 0.24, and 0.95 in order from the top.
한편, 상기 제1유사도대표정보를 도출하는 단계(S110)에서는 상기와 같이 카테고리별로 도출된 복수의 제1유사도값 가운데 최대값을 추출하여 상기 제1유사도대표정보를 도출한다. 도 9의 (A)에 도시된 제1유사도대표정보에는 제1카테고리(DDIs-D)에 대한 복수의 제1유사도값 가운데 최대값인 0.87이, 제5카테고리(Target)에 대한 복수의 제1유사도값 가운데 최대값인 0.95가, 제6카테고리에 대한 복수의 제1유사도값 가운데 최대값인 0.86이 포함될 수 있다.Meanwhile, in the step of deriving the first similarity representative information (S110), the first similarity representative information is derived by extracting the maximum value among the plurality of first similarity values derived for each category as described above. In the first similarity representative information shown in (A) of FIG. 9, the maximum value of 0.87 among the plurality of first similarity values for the first category (DDIs-D) and the plurality of first similarity values for the fifth category (Target) The maximum value of 0.95 among the similarity values and the maximum value of 0.86 among the plurality of first similarity values for the sixth category may be included.
도 9의 (B)는 예측대상부작용과 복수의 기존부작용 각각에 대한 제2유사도값을 도시한 도면에 해당한다. 구체적으로 도 9의 (B)의 좌측에 도시된 것과 같이, 예측대상부작용(초록색 다이아몬드)이 예측대상약물(적색 계열 약물)에 의해 발현될 수 있는지를 예측하기 위하여, 상기 예측대상부작용(초록색 다이아몬드)과 상기 예측대상약물(적색 계열 약물)에 의해 발현될 수 있는 것으로 알려져 있는 복수의 기존부작용(파랑, 보라, 노랑, 연주황색 다이아몬드) 사이의 제2유사도값을 도출할 수 있다.9(B) corresponds to a diagram showing a second similarity value for each of a predicted target side effect and a plurality of existing side effects. Specifically, as shown on the left side of FIG. 9 (B), in order to predict whether the predicted target side effect (green diamond) can be expressed by the predicted target drug (red series drug), the predicted target side effect (green diamond) ) and a second similarity value between a plurality of existing side effects (blue, purple, yellow, light yellow diamonds) known to be expressed by the predicted target drug (red drug) can be derived.
이를 위해, 상기 제2유사도값을 도출하는 단계(S120)는, 해부학적으로 구분된 복수의 계층별로, 상기 예측대상부작용이 발현되는 계층요소의 집합 및 각각의 상기 기존부작용이 발현되는 계층요소의 집합 사이의 교집합의 원소 수를 합집합의 원소 수로 나눈 계층유사도값을 산출하는 단계; 및 상기 복수의 계층별로 산출된 계층유사도값의 총합의 값을 상기 복수의 계층의 개수로 나눈 값을 상기 제2유사도값으로 산출하는 단계;를 포함할 수 있다.To this end, in the step of deriving the second similarity value (S120), for each of a plurality of anatomically divided layers, a set of layer elements in which the predicted target side effect is expressed and each of the layer elements in which the existing side effect is expressed Calculating a hierarchical similarity value by dividing the number of elements of the intersection between sets by the number of elements of the union; and calculating, as the second similarity value, a value obtained by dividing the sum of the layer similarity values calculated for each of the plurality of layers by the number of the plurality of layers.
구체적으로, 상기 제2유사도값을 도출하는 단계(S120)는 아래의 식 (2)를 사용하여 예측대상부작용과 기존부작용 간의 제2유사도값을 산출할 수 있다.Specifically, in the step of deriving the second similarity value (S120), a second similarity value between the predicted side effect and the existing side effect may be calculated using Equation (2) below.
- 식 (2) - Eq. (2)
상기 식 (2)에서 Sl(SEa,SEb)는 상술한 식 (1)에 의해 산출될 수 있고, 상기 식 (2)에서 l은 해부학적으로 구분된 복수의 계층 가운데 특정 계층에 해당하고, n은 해부학적으로 구분된 복수의 계층의 개수에 해당한다. 상술한 도 8에 대한 제2유사도값을 산출하고자 하는 경우 n은 3에 해당할 수 있다. 마찬가지로 식 (2)에 의해 산출되는 제2유사도값의 범위는 0 이상 1 이하의 값을 가질 수 있다.S l (SE a , SE b ) in Equation (2) can be calculated by Equation (1), and l in Equation (2) corresponds to a specific layer among a plurality of anatomically separated layers. And, n corresponds to the number of anatomically divided plural layers. In the case of calculating the second similarity value for FIG. 8 described above, n may correspond to 3. Similarly, the range of the second similarity value calculated by Equation (2) may have a value of 0 or more and 1 or less.
따라서, 도 9의 (B)에 도시된 바와 같이, 상기 예측대상부작용 및 기존부작용들의 제2유사도값은 위에서부터 순서대로, 0.33, 0.44, 0.5, 0.11이 산출되었다.Therefore, as shown in (B) of FIG. 9, the second similarity values of the predicted side effects and existing side effects were calculated as 0.33, 0.44, 0.5, and 0.11 in order from the top.
한편, 상기 제2유사도대표정보를 도출하는 단계(S130)에서는 상기와 같이 도출된 복수의 제2유사도값 가운데 최대값을 추출하여 상기 제2유사도대표정보를 도출한다. 도 9의 (B)에 도시된 제2유사도대표정보는 복수의 제2유사도값 가운데 최대값인 0.5가 포함될 수 있다.Meanwhile, in the step of deriving the second similarity representative information (S130), the second similarity representative information is derived by extracting the maximum value among the plurality of second similarity values derived as described above. The second similarity representative information shown in (B) of FIG. 9 may include a maximum value of 0.5 among a plurality of second similarity values.
이에 따라, 도 9의 (A) 및 도 9의 (B)에서 설명한 바와 같이, 예측대상약물(적색 계열 약물)과 예측대상부작용(초록색 다이아몬드) 사이에 대한 제1유사도대표정보 및 제2유사도대표정보를 포함하는 유사도대표정보가 도 9의 (C)에 도시된 바와 같이 도출될 수 있다. 상기 유사도대표정보는 학습된 추론모델부(1700)에 입력될 수 있고, 상기 추론모델부(1700)는 입력받은 유사도대표정보에 기초하여 해당 예측대상약물에 대하여 해당 예측대상부작용의 발현가능성에 대한 정보를 도출할 수 있다.Accordingly, as described in FIG. 9 (A) and FIG. 9 (B), the first similarity representative information and the second similarity representative between the predicted target drug (red series drug) and the predicted target side effect (green diamond) Similarity representative information including information can be derived as shown in FIG. 9(C). The similarity representative information may be input to the learned
도 9의 (C)에 기재된 'Class' 항목은 상기 추론모델부(1700)의 학습 혹은 검증을 위한 학습데이터 혹은 검증데이터로 상기 유사도대표정보가 사용되는 경우에 할당되는 라벨에 해당하며, 'Class' 항목의 'False' 값은 해당 예측대상약물과 해당 예측대상부작용의 관계가 알려져 있지 않은 경우에 라벨링 되는 값에 해당할 수 있고, 'Class' 항목의 'Ture' 값은 해당 예측대상약물과 해당 예측대상부작용의 관계가 알려져 있는 경우에 라벨링 되는 값에 해당할 수 있다.The 'Class' item described in (C) of FIG. 9 corresponds to a label assigned when the similarity representative information is used as learning or verification data for learning or verification of the
이와 같이, 상기 단계 S100 내지 단계 S130을 통해 도출되는 유사도대표정보는 해당 예측대상약물에 대한 해당 예측대상부작용의 발현가능성을 예측하기 위한 입력정보로 사용될 수도 있고, 상기 단계 S100 내지 단계 S130을 통해 도출되는 유사도대표정보는 상기 추론모델부(1700)의 학습 혹은 검증을 위한 유사도대표학습정보 혹은 유사도대표검증정보에 해당할 수 있으며, 상기 유사도대표학습정보 및 상기 유사도대표검증정보에는 해당 약물 및 해당 부작용 간의 관계가 라벨링될 수 있다.In this way, the similarity representative information derived through steps S100 to S130 may be used as input information for predicting the possibility of occurrence of the predicted side effect for the predicted drug, and derived through steps S100 to S130. The similarity representative information to be used may correspond to similarity representative learning information or similarity representative verification information for learning or verification of the
도 10은 본 발명의 일 실시예에 따른 추론모델부(1700)의 내부 구성을 개략적으로 도시한다.10 schematically illustrates the internal configuration of an
도 10에 도시된 바와 같이, 상기 추론모델부(1700)는, 복수의 제1추론모델을 포함하고, 상기 복수의 제1추론모델 각각은 서로 상이한 추론 알고리즘을 포함하고, 상기 추론 알고리즘은, 랜덤포레스트(Random forest), 로지스틱 회귀(Logistic regression), 나이브 베이지안(Naive Bayesian) 및 XGBoost를 포함할 수 있다.As shown in FIG. 10, the
구체적으로, 도 10의 (A)는 복수의 제1추론모델에 예측대상약물 및 예측대상부작용에 대한 유사도대표정보를 입력하여 도출된 결과값을 도시한다. 상기 복수의 제1추론모델은 상이한 추론 알고리즘, 구체적으로 상기 복수의 제1추론모델 각각은 입력 정보를 분류하기 위한 알고리즘인 랜덤포레스트(Random forest), 로지스틱 회귀(Logistic regression), 나이브 베이지안(Naive Bayesian) 및 XGBoost의 추론 알고리즘을 포함할 수 있다.Specifically, FIG. 10(A) shows result values derived by inputting similarity representative information for a predicted drug and a predicted side effect to a plurality of first inference models. The plurality of first inference models are different inference algorithms, specifically, each of the plurality of first inference models is an algorithm for classifying input information, such as random forest, logistic regression, and Naive Bayesian ) and XGBoost's inference algorithm.
도 10의 (A)에서는 4 개의 제1추론모델이 도시되어 있고, 각 제1추론모델의 알고리즘이 랜덤포레스트(Random forest), 로지스틱 회귀(Logistic regression), 나이브 베이지안(Naive Bayesian) 및 XGBoost로 기재되어 있으나, 본 발명의 다른 실시예에서는 이에 한정되지 아니하며, 상기 추론모델부(1700)는 2 이상의 제1추론모델을 포함할 수 있고, 제1추론모델의 추론 알고리즘은, 랜덤포레스트(Random forest), 로지스틱 회귀(Logistic regression), 나이브 베이지안(Naive Bayesian) 및 XGBoost외에도 입력된 정보를 분류하기 위한 다양한 추론 알고리즘을 포함할 수 있다.In (A) of FIG. 10, four first inference models are shown, and the algorithms of each first inference model are described as random forest, logistic regression, naive Bayesian, and XGBoost However, in another embodiment of the present invention, it is not limited thereto, and the
한편, 도 10의 (B)에 도시된 바와 같이, 상기 추론모델부(1700)는, 상기 제1유사도대표정보 및 상기 제2유사도대표정보에 기초하여 상기 예측대상약물에 대한 상기 예측대상부작용의 제1발현가능성에 대한 정보를 도출하는 복수의 제1추론모델; 및 상기 복수의 제1추론모델 각각이 도출한 복수의 상기 제1발현가능성에 대한 정보에 기초하여 상기 예측대상약물에 대한 상기 예측대상부작용의 제2발현가능성에 대한 정보를 도출하는 제2추론모델을 포함할 수 있다.Meanwhile, as shown in (B) of FIG. 10 , the
구체적으로, 추론모델부(1700)는 앙상블 학습(Ensemble learning) 방법으로 구현될 수 있으며, 따라서 복수의 제1추론모델 각각은 분류기에 해당하고, 제2추론모델은 메타 분류기에 해당할 수 있다. 즉, 복수의 제1추론모델 및 제2추론모델을 포함하고, 상기 복수의 제1추론모델 각각은 예측대상약물 및 예측대상부작용에 대한 유사도대표정보를 입력받아 제1발현가능성에 대한 정보를 각각 도출하고, 상기 제2추론모델은 상기 복수의 제1추론모델이 각각 도출한 복수의 제1발현가능성에 대한 정보를 입력받아 제2발현가능성에 대한 정보를 도출할 수 있다.Specifically, the
상기 제2발현가능성에 대한 정보는 상술한 발현가능성예측부(1600)에서 도출하는 발현가능성에 대한 정보에 해당할 수도 있고, 혹은 상기 발현가능성예측부(1600)에서 상기 제2발현가능성에 대한 정보에 기초하여 별도의 상기 발현가능성에 대한 정보를 도출할 수도 있다.The information on the second expression possibility may correspond to the information on the expression possibility derived from the expression
한편, 본 발명의 추론모델부(1700)는 앙상블 학습을 수행하기 위하여, 과반수 투표, 다수결 투표 등 종래의 다양한 방법들을 적용할 수 있다.Meanwhile, the
도 11은 본 발명의 일 실시예에 따른 제1추론모델이 학습데이터에 의해 학습하는 과정을 개략적으로 도시한다.11 schematically illustrates a process in which a first inference model learns by learning data according to an embodiment of the present invention.
도 11에 도시된 바와 같이, 상기 복수의 제1추론모델은, 어느 하나의 제1약물과 상기 제1약물에 대하여 알려져 있는 어느 하나의 부작용을 쌍으로 하는 복수의 제1샘플 및 어느 하나의 제2약물과 상기 제2약물에 대하여 알려져 있지 않은 어느 하나의 부작용을 쌍으로 하는 복수의 제2샘플 각각에 대한 제1유사도대표학습정보 및 제2유사도대표학습정보에 의하여 학습될 수 있다.As shown in FIG. 11, the plurality of first inference models include a plurality of first samples paired with any one first drug and any one known side effect with respect to the first drug, and any one first inference model. It can be learned by the first similarity representative learning information and the second similarity representative learning information for each of a plurality of second samples pairing two drugs and any one side effect unknown to the second drug.
구체적으로, 제1추론모델은 복수의 제1샘플에 대한 제1유사도대표학습정보 및 제2유사도대표학습정보를 포함하는 유사도대표학습정보 및 복수의 제2샘플에 대한 제1유사도대표학습정보 및 제2유사도대표학습정보를 포함하는 유사도대표학습정보를 학습데이터로 하여, 학습을 수행할 수 있다.Specifically, the first inference model includes similarity representative learning information including first similarity representative learning information and second similarity representative learning information for a plurality of first samples, first similarity representative learning information for a plurality of second samples, and Learning may be performed using similarity representative learning information including the second similarity representative learning information as learning data.
상기 제1샘플은 어떤 특정 약물인 제1약물과 상기 제1약물에 대하여 이미 알려져 있는 어느 하나의 특정 부작용을 쌍으로 하는 샘플에 해당하고, 상기 제1샘플에 대한 유사도대표학습정보는 상술한 단계 S100 내지 단계 S130을 통해 유사도대표정보를 도출하는 방법과 동일한 방법으로 도출될 수 있다. 한편 상기 제1샘플에 대한 유사도대표학습정보는 상기 제1추론모델이 지도학습 방식으로 학습하는 경우에 'Ture'와 같은 라벨링 값을 더 포함할 수 있다.The first sample corresponds to a sample paired with a first drug, which is a specific drug, and a specific side effect known to the first drug, and the similarity representative learning information for the first sample is the step described above. It can be derived in the same way as the method of deriving the similarity representative information through steps S100 to S130. Meanwhile, the similarity representative learning information for the first sample may further include a labeling value such as 'Ture' when the first inference model learns in a supervised learning method.
한편, 상기 제2샘플은 어떤 특정 약물인 제2약물과 상기 제2약물에 대하여 알려져 있지 않은 어느 하나의 특정 부작용을 쌍으로 하는 샘플에 해당하고, 상기 제2샘플에 대한 유사도대표학습정보는 상술한 단계 S100 내지 단계 S130을 통해 유사도대표정보를 도출하는 방법과 동일한 방법으로 도출될 수 있다. 마찬가지로, 상기 제2샘플에 대한 유사도대표학습정보는 상기 제1추론모델이 지도학습 방식으로 학습하는 경우에 'False'와 같은 라벨링 값을 더 포함할 수 있다.On the other hand, the second sample corresponds to a sample in which a second drug, which is a specific drug, and a specific side effect unknown to the second drug are paired, and the similarity representative learning information for the second sample is as described above. It can be derived in the same way as the method of deriving similarity representative information through one step S100 to step S130. Similarly, the similarity representative learning information for the second sample may further include a labeling value such as 'False' when the first inference model learns in a supervised learning method.
본 발명의 다른 실시예에서는, 상기 제1추론모델을 검증하기 위한 검증데이터는 상기 복수의 제1샘플에 대한 유사도대표검증정보 및 상기 복수의 제2샘플에 대한 유사도대표검증정보를 포함할 수 있고, 상기 유사도대표검증정보는 상술한 단계 S100 내지 단계 S130을 통해 유사도대표정보를 도출하는 방법과 동일한 방법으로 도출될 수 있다.In another embodiment of the present invention, the verification data for verifying the first inference model may include similarity representative verification information for the plurality of first samples and similarity representative verification information for the plurality of second samples, , The similarity representative verification information can be derived in the same way as the method of deriving the similarity representative information through steps S100 to S130 described above.
또한, 상기 제1추론모델을 테스트하기 위한 테스트데이터는 상기 복수의 제1샘플에 대한 유사도대표테스트정보 및 상기 복수의 제2샘플에 대한 유사도대표테스트정보를 포함할 수 있고, 상기 유사도대표테스트정보는 상술한 단계 S100 내지 단계 S130을 통해 유사도대표정보를 도출하는 방법과 동일한 방법으로 도출될 수 있다.In addition, the test data for testing the first inference model may include similarity representative test information for the plurality of first samples and similarity representative test information for the plurality of second samples, and the similarity representative test information may be derived in the same way as the method of deriving similarity representative information through steps S100 to S130 described above.
이와 같이, 상기 제1추론모델에 대하여 학습데이터, 검증데이터 및 테스트데이터를 도출하는 경우 각 데이터는 소정의 비율로 도출될 수 있고, 바람직하게는 학습데이터, 검증데이터 및 테스트데이터에 포함되는 복수의 제1샘플 및 복수의 제2샘플의 비율은 각각 8:1:1로 구성될 수도 있다.In this way, when learning data, verification data, and test data are derived for the first inference model, each data may be derived at a predetermined ratio, and preferably, a plurality of data included in the learning data, verification data, and test data The ratio of the first sample and the plurality of second samples may be 8:1:1, respectively.
도 12는 본 발명의 일 실시예에 따른 유사도대표학습정보를 도출하는 과정을 개략적으로 도시한다.12 schematically illustrates a process of deriving similarity representative learning information according to an embodiment of the present invention.
구체적으로 도 12의 (A)에는 특정 부작용(초록색 삼각형)에 대하여 이미 알려져 있는 복수의 약물들, 학습데이터에서 해당 특정 부작용(초록색 삼각형)과 쌍을 이루는 복수의 약물들과 테스트 혹은 검증데이터에서 해당 특정 부작용(초록색 삼각형)과 쌍을 이루는 복수의 약물들이 도시되어 있다.Specifically, in (A) of FIG. 12, a plurality of drugs already known for a specific side effect (green triangle), a plurality of drugs paired with a corresponding specific side effect (green triangle) in the learning data, and a corresponding corresponding side effect in the test or verification data Multiple drugs paired with specific side effects (green triangles) are shown.
한편, 도 12의 (B)에서는 학습데이터에 포함되는 특정 약물(적색 계열 약물) 및 해당 특정 부작용(초록색 삼각형) 사이의 유사성대표정보를 도출하기 위하여 상기 특정 부작용(초록색 삼각형)에 대하여 이미 알려져 있는 복수의 약물과 상기 특정 약물(적색 계열 약물) 사이의 복수의 카테고리별로 복수의 제1유사도값을 도출하고, 카테고리별 복수의 제1유사도값 가운데 최대값을 해당 카테고리의 제1유사도대표정보로 추출한다.On the other hand, in (B) of FIG. 12, in order to derive similarity representative information between a specific drug (red-type drug) included in the learning data and the corresponding specific side effect (green triangle), information that is already known about the specific side effect (green triangle) A plurality of first similarity values are derived for each of a plurality of categories between a plurality of drugs and the specific drug (red-type drug), and the maximum value among the plurality of first similarity values for each category is extracted as the first similarity representative information of the corresponding category. do.
한편, 도 12의 (B)에 도시된 바와 같이 만약 상기 특정 약물(적색 계열 약물) 및 상기 특정 부작용(초록색 삼각형)의 관계가 이미 알려져 있는 경우에는 상기 특정 약물(적색 계열 약물) 사이의 제1유사도값은 도출하지 않을 수도 있다.On the other hand, as shown in (B) of FIG. 12, if the relationship between the specific drug (red-type drug) and the specific side effect (green triangle) is already known, the first relationship between the specific drug (red-type drug) A similarity value may not be derived.
또한, 도 12의 (B)에는 도시되지 않았으나, 상기 특정 부작용(초록색 삼각형)과 상기 특정 약물(적색 계열 약물)에 대해 이미 알려져 있는 복수의 부작용 사이의 복수의 제2유사도값을 도출할 수 있고, 복수의 제2유사도값 가운데 최대값을 제2유사도대표정보로 추출할 수 있다. 마찬가지로, 상기 특정 약물(적색 계열 약물) 및 상기 특정 부작용(초록색 삼각형)의 관계가 이미 알려져 있는 경우에 상기 특정 부작용(초록색 삼각형) 사이의 제2유사도값은 도출하지 않을 수도 있다.In addition, although not shown in (B) of FIG. 12, a plurality of second similarity values between the specific side effect (green triangle) and a plurality of known side effects for the specific drug (red series drug) can be derived, , The maximum value among the plurality of second similarity values may be extracted as the second similarity representative information. Similarly, when the relationship between the specific drug (red-type drug) and the specific side effect (green triangle) is already known, the second similarity value between the specific side effect (green triangle) may not be derived.
마찬가지로, 도 12의 (C)에 도시된 바와 같이, 테스트데이터 혹은 검증데이터에 대한 유사성대표정보 또한 유사한 방법으로 도출될 수 있다.Similarly, as shown in (C) of FIG. 12, similarity representative information for test data or verification data can also be derived in a similar way.
도 13은 본 발명의 일 실시예에 따른 다양한 추론모델부(1700)의 구성에 대한 Area Under the ROC Curve(AUC) 값들을 개략적으로 도시한다.13 schematically illustrates Area Under the ROC Curve (AUC) values for various configurations of the
도 13의 (A)에서는 상기 제1유사도값을 도출하는 단계(S100)에서의 복수의 카테고리의 구성 및 상기 제2유사도값을 도출하는 단계(S120)의 포함 여부에 따른 각 추론모델부(1700)의 Area Under the ROC Curve(AUC) 값들을 도시한 도면에 해당한다.In (A) of FIG. 13, each
구체적으로, 도 13의 (A)에서의 'Base'는 종래의 방법에서 사용하는 제5카테고리(Target) 및 제6카테고리(약물의 화학적 구조)에 대한 유사성만을 고려한 추론모델부(1700)에 해당하고, 'Base + SE-AH'는 'Base'에 대한 구성에 예측대상부작용과 기존부작용사이의 유사성을 추가적으로 고려한 추론모델부(1700)에 해당하고, 'Base + DDIs-N'은 'Base'에 대한 구성에 상술한 제2카테고리에 대한 유사성을 추가적으로 고려한 추론모델부(1700)에 해당하고, 'Base + SNPs'는 'Base'에 대한 구성에 상술한 제3카테고리에 대한 유사성을 추가적으로 고려한 추론모델부(1700)에 해당하고, 'Base + DDIs-D'는 'Base'에 대한 구성에 상술한 제1카테고리에 대한 유사성을 추가적으로 고려한 추론모델부(1700)에 해당하고, 'All features'는 상술한 모든 카테고리 및 예측대상부작용과 기존부작용사이의 유사성을 모두 고려한 추론모델부(1700)에 해당한다.Specifically, 'Base' in (A) of FIG. 13 corresponds to the
도 13의 (A)에 도시된 각각의 구성에 따른 추론모델부(1700)의 AUC값은 'All features'인 경우에 가장 높은 값이 도출되었고, 따라서 종래의 방법('Base')에 비해 본 발명에서의 다양한 유사성 항목들을 고려하여 부작용을 예측하는 것이 더욱더 효과적으로 부작용을 예측할 수 있음을 확인할 수 있다.As for the AUC value of the
도 13의 (B)는 상기 추론모델부(1700)가 단일의 제1추론모델만을 포함하는 경우(Proposed method(RF)) 및 상기 추론모델부(1700)가 복수의 제1추론모델 및 제2추론모델을 포함하는 경우(Proposed method(stacking))에 대한 AUC값을 도시한 도면에 해당한다.13(B) shows a case in which the
도 13의 (B)에 도시된 바와 같이 상기 추론모델부(1700)가 단일의 제1추론모델만을 사용하여 부작용을 예측하는 경우보다 앙상블 학습 방법으로 복수의 제1추론모델 및 제2추론모델을 포함하는 경우에 더욱더 효과적으로 부작용을 예측할 수 있음을 확인할 수 있다.As shown in (B) of FIG. 13, the
도 14는 본 발명의 일 실시예에 따른 컴퓨팅장치의 내부 구성을 개략적으로 도시한다.14 schematically illustrates the internal configuration of a computing device according to an embodiment of the present invention.
상술한 도 2에 도시된 컴퓨팅장치(1000)는 상기 도 14에 도시된 컴퓨팅장치(11000)의 구성요소들을 포함할 수 있다.The
도 14에 도시된 바와 같이, 컴퓨팅장치(11000)는 적어도 하나의 프로세서(processor)(11100), 메모리(memory)(11200), 주변장치 인터페이스(peripheral interface)(11300), 입/출력 서브시스템(I/O subsystem)(11400), 전력 회로(11500) 및 통신 회로(11600)를 적어도 포함할 수 있다. 이때, 컴퓨팅장치(11000)는 도 2에 도시된 컴퓨팅장치(1000)에 해당될 수 있다.As shown in FIG. 14, a
메모리(11200)는 일례로 고속 랜덤 액세스 메모리(high-speed random access memory), 자기 디스크, 에스램(SRAM), 디램(DRAM), 롬(ROM), 플래시 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(11200)는 컴퓨팅장치(11000)의 동작에 필요한 소프트웨어 모듈, 명령어 집합 또는 그 밖에 다양한 데이터를 포함할 수 있다.The
이때, 프로세서(11100)나 주변장치 인터페이스(11300) 등의 다른 컴포넌트에서 메모리(11200)에 액세스하는 것은 프로세서(11100)에 의해 제어될 수 있다.In this case, access to the
주변장치 인터페이스(11300)는 컴퓨팅장치(11000)의 입력 및/또는 출력 주변장치를 프로세서(11100) 및 메모리 (11200)에 결합시킬 수 있다. 프로세서(11100)는 메모리(11200)에 저장된 소프트웨어 모듈 또는 명령어 집합을 실행하여 컴퓨팅장치(11000)을 위한 다양한 기능을 수행하고 데이터를 처리할 수 있다.
입/출력 서브시스템은 다양한 입/출력 주변장치들을 주변장치 인터페이스(11300)에 결합시킬 수 있다. 예를 들어, 입/출력 서브시스템은 모니터나 키보드, 마우스, 프린터 또는 필요에 따라 터치스크린이나 센서 등의 주변장치를 주변장치 인터페이스(11300)에 결합시키기 위한 컨트롤러를 포함할 수 있다. 다른 측면에 따르면, 입/출력 주변장치들은 입/출력 서브시스템을 거치지 않고 주변장치 인터페이스(11300)에 결합될 수도 있다.The input/output subsystem can couple various input/output peripherals to
전력 회로(11500)는 단말기의 컴포넌트의 전부 또는 일부로 전력을 공급할 수 있다. 예를 들어 전력 회로(11500)는 전력 관리 시스템, 배터리나 교류(AC) 등과 같은 하나 이상의 전원, 충전 시스템, 전력 실패 감지 회로(power failure detection circuit), 전력 변환기나 인버터, 전력 상태 표시자 또는 전력 생성, 관리, 분배를 위한 임의의 다른 컴포넌트들을 포함할 수 있다.The
통신 회로(11600)는 적어도 하나의 외부 포트를 이용하여 다른 컴퓨팅장치와 통신을 가능하게 할 수 있다.The
또는 상술한 바와 같이 필요에 따라 통신 회로(11600)는 RF 회로를 포함하여 전자기 신호(electromagnetic signal)라고도 알려진 RF 신호를 송수신함으로써, 다른 컴퓨팅장치와 통신을 가능하게 할 수도 있다.Alternatively, as described above, the
이러한 도 14의 실시예는, 컴퓨팅장치(11000)의 일례일 뿐이고, 컴퓨팅장치(11000)는 도 14에 도시된 일부 컴포넌트가 생략되거나, 도 14에 도시되지 않은 추가의 컴포넌트를 더 구비하거나, 2개 이상의 컴포넌트를 결합시키는 구성 또는 배치를 가질 수 있다. 예를 들어, 모바일 환경의 통신 단말을 위한 컴퓨팅장치는 도 14에 도시된 컴포넌트들 외에도, 터치스크린이나 센서 등을 더 포함할 수도 있으며, 통신 회로(11600)에 다양한 통신방식(WiFi, 3G, LTE, Bluetooth, NFC, Zigbee 등)의 RF 통신을 위한 회로가 포함될 수도 있다. 컴퓨팅장치(11000)에 포함 가능한 컴포넌트들은 하나 이상의 신호 처리 또는 어플리케이션에 특화된 집적 회로를 포함하는 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어 양자의 조합으로 구현될 수 있다.The embodiment of FIG. 14 is only an example of the
본 발명의 실시예에 따른 방법들은 다양한 컴퓨팅장치를 통하여 수행될 수 있는 프로그램 명령(instruction) 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 특히, 본 실시예에 따른 프로그램은 PC 기반의 프로그램 또는 모바일 단말 전용의 어플리케이션으로 구성될 수 있다. 본 발명이 적용되는 어플리케이션은 파일 배포 시스템이 제공하는 파일을 통해 컴퓨팅장치(1000)에 설치될 수 있다. 일 예로, 파일 배포 시스템은 컴퓨팅장치(1000)의 요청에 따라 상기 파일을 전송하는 파일 전송부(미도시)를 포함할 수 있다.Methods according to embodiments of the present invention may be implemented in the form of program instructions that can be executed through various computing devices and recorded in computer readable media. In particular, the program according to the present embodiment may be composed of a PC-based program or a mobile terminal-specific application. An application to which the present invention is applied may be installed in the
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The device described above may be implemented as a hardware component, a software component, and/or a combination of hardware components and software components. For example, devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA) , a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may run an operating system (OS) and one or more software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of software. For convenience of understanding, there are cases in which one processing device is used, but those skilled in the art will understand that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include. For example, a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨팅장치 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. You can command the device. Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or to provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed on networked computing devices and stored or executed in a distributed manner. Software and data may be stored on one or more computer readable media.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program commands recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
본 발명의 일 실시예에 따르면, 예측대상약물과 복수의 기존약물 각각에 대하여 약물과 약물 사이의 상호관계를 카테고리로 하여 제1유사도 값을 도출하므로, 더욱더 정확하게 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측할 수 있는 효과를 발휘할 수 있다.According to one embodiment of the present invention, since the first similarity value is derived by categorizing the drug-to-drug relationship for each of the drug to be predicted and a plurality of existing drugs, the predicted side effects of the drug to be predicted more accurately It can exert the effect of predicting the possibility of expression.
본 발명의 일 실시예에 따르면, 예측대상약물과 복수의 기존약물 각각에 대하여 약물이 타겟으로 하는 복수의 타겟유전자 사이의 노드정보를 카테고리로 하여 제1유사도값을 도출하므로, 더욱더 정확하게 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측할 수 있는 효과를 발휘할 수 있다.According to one embodiment of the present invention, since the first similarity value is derived by categorizing the node information between the drug to be predicted and a plurality of target genes targeted by the drug for each of the plurality of existing drugs, the drug to be predicted more accurately It can exert the effect of predicting the possibility of occurrence of the predicted target side effect for
본 발명의 일 실시예에 따르면, 예측대상약물과 복수의 기존약물 각각에 대하여 약물에 관련된 1 이상의 질병 각각에 대한 SNP가 발현되는 발현유전자정보를 카테고리로 하여 제1유사도값을 도출하므로, 더욱더 정확하게 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측할 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, since the first similarity value is derived by categorizing expression gene information in which SNPs for each of one or more drug-related diseases are expressed for each of the drug to be predicted and a plurality of existing drugs, the first similarity value is derived more accurately It can exert the effect of predicting the possibility of occurrence of the predicted target side effects for the predicted target drug.
본 발명의 일 실시예에 따르면, 예측대상부작용과 예측대상약물에 대해 알려져 있는 복수의 기존 부작용 사이의 제2유사도값을 도출하므로, 더욱더 정확하게 예측대상약물에 대한 예측대상부작용의 발현가능성을 예측할 수 있는 효과를 발휘할 수 있다.According to one embodiment of the present invention, since a second similarity value is derived between a predicted side effect and a plurality of existing side effects known for the predicted drug, the possibility of occurrence of the predicted side effect for the predicted drug can be more accurately predicted. effect can be exerted.
본 발명의 일 실시예에 따르면, 발현가능성에 대한 정보를 도출하는 학습된 추론모델부는, 복수의 제1추론모델에서 도출한 결과값을 입력으로 하는 앙상블 학습으로 구현되는 제2추론모델을 포함하므로, 추론모델부의 성능을 향상시킬 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, the learned inference model unit for deriving information on the possibility of occurrence includes a second inference model implemented by ensemble learning that takes as input result values derived from a plurality of first inference models. , can exert the effect of improving the performance of the inference model unit.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited examples and drawings, those skilled in the art can make various modifications and variations from the above description. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims are within the scope of the following claims.
Claims (13)
예측대상약물과, 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 2 이상의 카테고리 각각에 대하여 제1유사도값을 도출하는 단계;
각각의 상기 카테고리에 대한 복수의 상기 제1유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제1유사도대표정보를 도출하는 단계;
상기 예측대상부작용과, 상기 예측대상약물에 대하여 알려져 있는 복수의 기존부작용 사이의 각각의 제2유사도값을 도출하는 단계;
복수의 상기 제2유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제2유사도대표정보를 도출하는 단계; 및
상기 제1유사도대표정보 및 상기 제2유사도대표정보를 학습된 추론모델부에 입력하여, 상기 예측대상약물에 대한 상기 예측대상부작용의 발현가능성에 대한 정보를 도출하는 단계;를 포함하고,
상기 카테고리는, 1 이상의 타 약물간의 상호관계; 유전자 및 단백질에 대한 노드정보; 1 이상의 유전자에 대한 발현유전자정보; 1 이상의 증상 혹은 질병에 대한 증상정보; 복수의 타겟유전자에 대한 타겟유전자정보; 및 약물의 화학적 구조에 대한 정보; 중 2 이상을 포함하고,
상기 제1유사도값을 도출하는 단계는,
하기 식 (1)과 같이, 상기 카테고리별로, 상기 예측대상약물의 해당 카테고리에 대한 정보의 집합(SA) 및 각각의 상기 기존약물의 해당 카테고리에 대한 정보의 집합(SB) 사이의 교집합의 원소 수를 합집합의 원소 수로 나눈 값을 상기 제1유사도값으로 산출하고,
- 식 (1)
상기 제2유사도값을 도출하는 단계는,
해부학적으로 구분된 복수의 계층별로, 상기 예측대상부작용이 발현되는 계층요소의 집합(SEa) 및 각각의 상기 기존부작용이 발현되는 계층요소의 집합(SEb) 사이의 교집합의 원소 수를 합집합의 원소 수로 나눈 계층유사도값(Sl(SEa,SEb))을 산출하는 단계; 및
상기 복수의 계층별로 산출된 계층유사도값(Sl(SEa,SEb))의 총합의 값을 상기 복수의 계층의 개수(n, n은 자연수)로 나눈 값을 상기 제2유사도값으로 산출하는 단계;를 포함하되,
상기 예측대상부작용이 발현되는 계층요소의 집합(SEa) 및 각각의 상기 기존부작용이 발현되는 계층요소의 집합(SEb)에 대한 제2유사도값은, 하기 식 (2)를 통해 산출되고,
- 식 (2)
상기 계층유사도값(Sl(SEa,SEb))은, 상기 식 (1)에 의해 산출될 수 있고,
상기 l은 해부학적으로 구분된 복수의 계층 가운데 특정 계층에 해당하고,
상기 n은 해부학적으로 구분된 복수의 계층의 개수에 해당하는, 약물의 부작용을 예측하는 방법.
As a method for predicting drug side effects, implemented as a computing device,
deriving a first similarity value for each of two or more categories between a predicted target drug and a plurality of existing drugs known to have predicted target side effects;
deriving first similarity representative information between the predicted target drug and the predicted target side effect by extracting a maximum value from the plurality of first similarity values for each category;
deriving each second similarity value between the predicted target side effect and a plurality of existing side effects known for the predicted target drug;
deriving second similarity representative information between the predicted target drug and the predicted target side effect by extracting a maximum value from the plurality of second similarity values; and
Entering the first similarity representative information and the second similarity representative information into the learned inference model unit to derive information about the possibility of occurrence of the predicted side effect for the predicted drug;
The categories include, interrelationships between one or more other drugs; node information for genes and proteins; Expression gene information for one or more genes; Symptom information for one or more symptoms or diseases; target gene information for a plurality of target genes; and information about the chemical structure of the drug; contains two or more of
The step of deriving the first similarity value,
As shown in Equation (1) below, for each category, the set of information on the corresponding category of the drug to be predicted (S A ) and the set of intersection between the set of information on the corresponding category of each existing drug (S B ) A value obtained by dividing the number of elements by the number of elements in the union is calculated as the first similarity value,
- formula (1)
The step of deriving the second similarity value,
For each of a plurality of anatomically separated hierarchies, the number of elements of the intersection between the set of hierarchical elements in which the predicted side effect is expressed (SE a ) and the set of hierarchical elements in which each of the existing side effects is expressed (SE b ) is the union Calculating a layer similarity value (S l (SE a , SE b )) divided by the number of elements in; and
A value obtained by dividing the sum of the layer similarity values (S l (SE a , SE b )) calculated for each of the plurality of layers by the number of the plurality of layers (n, where n is a natural number) is calculated as the second similarity value. Including;
The second similarity value for the set of hierarchical elements in which the predicted side effect is expressed (SE a ) and the set of hierarchical elements in which each of the existing side effects is expressed (SE b ) is calculated through the following equation (2),
- Eq. (2)
The layer similarity value (S l (SE a , SE b )) can be calculated by Equation (1),
The l corresponds to a specific layer among a plurality of anatomically divided layers,
Wherein n corresponds to the number of a plurality of anatomically separated layers, a method for predicting side effects of a drug.
상기 제1유사도값을 도출하는 단계는,
약물이 영향을 주거나, 혹은 영향을 받는 1 이상의 타 약물간의 상호관계를 제1카테고리로 포함하고,
상기 예측대상약물이 영향을 주거나, 혹은 영향을 받는 1 이상의 타 약물간의 상호관계 및 상기 복수의 기존약물 각각이 영향을 주거나, 혹은 영향을 받는 1 이상의 타 약물간의 상호관계 사이의 상기 제1카테고리에 대한 제1유사도값을 도출하는, 약물의 부작용을 예측하는 방법.
The method of claim 1,
The step of deriving the first similarity value,
Including as a first category the interaction between one or more other drugs that the drug affects or is affected by,
In the first category between the correlation between one or more other drugs that the predicted drug affects or is affected by and the correlation between one or more other drugs that each of the plurality of existing drugs affects or is affected by A method for predicting side effects of drugs, deriving a first similarity value for.
상기 제1유사도값을 도출하는 단계는,
약물이 타겟으로 하는 복수의 타겟유전자 사이의 상호작용 경로에 포함되는 유전자 및 단백질에 대한 노드정보를 제2카테고리로 포함하고,
상기 예측대상약물에 대한 노드정보 및 상기 복수의 기존약물 각각의 노드정보 사이의 상기 제2카테고리에 대한 제1유사도값을 도출하는, 약물의 부작용을 예측하는 방법.
The method of claim 1,
The step of deriving the first similarity value,
Includes, as a second category, node information on genes and proteins included in the interaction pathway between a plurality of target genes targeted by the drug;
A method for predicting a side effect of a drug, wherein a first similarity value for the second category is derived between node information on the predicted drug and node information on each of the plurality of existing drugs.
상기 제1유사도값을 도출하는 단계는,
약물에 관련된 1 이상의 질병 각각에 관련된 SNP(Single Nucleotide Polymorphism)가 발현되는 1 이상의 유전자에 대한 발현유전자정보를 제3카테고리로 포함하고,
상기 예측대상약물에 대한 발현유전자정보 및 상기 복수의 기존약물 각각에 대한 발현유전자정보 사이의 상기 제3카테고리에 대한 제1유사도값을 도출하는, 약물의 부작용을 예측하는 방법.
The method of claim 1,
The step of deriving the first similarity value,
A third category includes expression gene information for one or more genes in which SNPs (Single Nucleotide Polymorphisms) related to each of one or more drug-related diseases are expressed,
A method for predicting side effects of drugs, wherein a first similarity value for the third category is derived between expression gene information for the predicted drug and expression gene information for each of the plurality of existing drugs.
상기 제1유사도값을 도출하는 단계는,
약물에 관련된 1 이상의 증상 혹은 질병에 대한 증상정보를 제4카테고리 및
약물이 타겟으로 하는 복수의 타겟유전자에 대한 타겟유전자정보를 제5카테고리로 포함하고,
상기 예측대상약물에 대한 증상정보 및 상기 복수의 기존약물 각각에 대한 증상정보 사이의 상기 제4카테고리에 대한 제1유사도값 및
상기 예측대상약물에 대한 타겟유전자정보 및 상기 복수의 기존약물 각각에 대한 타겟유전자정보 사이의 상기 제5카테고리에 대한 제1유사도값을 도출하는, 약물의 부작용을 예측하는 방법.
The method of claim 1,
The step of deriving the first similarity value,
Symptom information on one or more symptoms or diseases related to drugs is classified into the 4th category and
Includes target gene information for a plurality of target genes targeted by the drug as a fifth category,
A first similarity value for the fourth category between the symptom information for the prediction target drug and the symptom information for each of the plurality of existing drugs, and
Deriving a first similarity value for the fifth category between the target gene information for the drug to be predicted and the target gene information for each of the plurality of existing drugs.
상기 제2유사도값을 도출하는 단계는,
해부학적으로 구분된 복수의 계층별로, 상기 예측대상부작용이 발현되는 계층요소의 종류 및 각각의 상기 기존부작용이 발현되는 계층요소의 종류에 기초하여 상기 제2유사도값을 도출하는, 약물의 부작용을 예측하는 방법.
The method of claim 1,
The step of deriving the second similarity value,
For each of a plurality of anatomically divided classes, the side effects of drugs for deriving the second similarity value based on the type of layer elements in which the predicted side effect is expressed and the type of layer elements in which each of the existing side effects is expressed How to predict.
상기 추론모델부는,
상기 제1유사도대표정보 및 상기 제2유사도대표정보에 기초하여 상기 예측대상약물에 대한 상기 예측대상부작용의 제1발현가능성에 대한 정보를 도출하는 복수의 제1추론모델; 및
상기 복수의 제1추론모델 각각이 도출한 복수의 상기 제1발현가능성에 대한 정보에 기초하여 상기 예측대상약물에 대한 상기 예측대상부작용의 제2발현가능성에 대한 정보를 도출하는 제2추론모델을 포함하는, 약물의 부작용을 예측하는 방법.
The method of claim 1,
The reasoning model unit,
a plurality of first inference models for deriving information on a first occurrence possibility of the predicted target drug for the predicted target drug based on the first similarity representative information and the second similarity representative information; and
A second inference model for deriving information on the second expression possibility of the predicted side effect for the predicted drug based on the information on the plurality of first expression possibilities derived by each of the plurality of first inference models Including, a method for predicting side effects of drugs.
상기 복수의 제1추론모델 각각은 서로 상이한 추론 알고리즘을 포함하고,
상기 추론 알고리즘은,
랜덤포레스트(Random forest), 로지스틱 회귀(Logistic regression), 나이브 베이지안(Naive Bayesian) 및 XGBoost를 포함하는, 약물의 부작용을 예측하는 방법.
The method of claim 9,
Each of the plurality of first inference models includes different inference algorithms,
The inference algorithm,
Methods for predicting side effects of drugs, including Random forest, Logistic regression, Naive Bayesian and XGBoost.
상기 복수의 제1추론모델은,
어느 하나의 제1약물과 상기 제1약물에 대하여 알려져 있는 어느 하나의 부작용을 쌍으로 하는 복수의 제1샘플 및 어느 하나의 제2약물과 상기 제2약물에 대하여 알려져 있지 않은 어느 하나의 부작용을 쌍으로 하는 복수의 제2샘플 각각에 대한 제1유사도대표학습정보 및 제2유사도대표학습정보에 의하여 학습되고,
상기 제1유사도대표학습정보 및 상기 제2유사도대표학습정보는,
청구항 1항의 단계들에 의하여 도출되는, 약물의 부작용을 예측하는 방법.
The method of claim 9,
The plurality of first inference models,
A plurality of first samples paired with any one first drug and any one side effect known to the first drug, and any one second drug and any one unknown side effect with respect to the second drug It is learned by the first similarity representative learning information and the second similarity representative learning information for each of a plurality of second samples paired,
The first similarity representative learning information and the second similarity representative learning information,
A method for predicting side effects of a drug, derived by the steps of claim 1 .
예측대상약물과, 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 2 이상의 카테고리 각각에 대하여 제1유사도값을 도출하는 제1유사도도출부;
각각의 상기 카테고리에 대한 복수의 상기 제1유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제1유사도대표정보를 도출하는 제1유사도대표정보도출부;
상기 예측대상부작용과, 상기 예측대상약물에 대하여 알려져 있는 복수의 기존부작용 사이의 각각의 제2유사도값을 도출하는 제2유사도도출부;
복수의 상기 제2유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제2유사도대표정보를 도출하는 제2유사도대표정보도출부; 및
상기 제1유사도대표정보 및 상기 제2유사도대표정보를 학습된 추론모델부에 입력하여, 상기 예측대상약물에 대한 상기 예측대상부작용의 발현가능성에 대한 정보를 도출하는 발현가능성예측부;를 포함하고,
상기 카테고리는, 1 이상의 타 약물간의 상호관계; 유전자 및 단백질에 대한 노드정보; 1 이상의 유전자에 대한 발현유전자정보; 1 이상의 증상 혹은 질병에 대한 증상정보; 복수의 타겟유전자에 대한 타겟유전자정보; 및 약물의 화학적 구조에 대한 정보; 중 2 이상을 포함하고,
상기 제1유사도도출부는,
하기 식 (1)과 같이, 상기 카테고리별로, 상기 예측대상약물의 해당 카테고리에 대한 정보의 집합(SA) 및 각각의 상기 기존약물의 해당 카테고리에 대한 정보의 집합(SB) 사이의 교집합의 원소 수를 합집합의 원소 수로 나눈 값을 상기 제1유사도값으로 산출하고,
- 식 (1)
상기 제2유사도도출부는,
해부학적으로 구분된 복수의 계층별로, 상기 예측대상부작용이 발현되는 계층요소의 집합(SEa) 및 각각의 상기 기존부작용이 발현되는 계층요소의 집합(SEb) 사이의 교집합의 원소 수를 합집합의 원소 수로 나눈 계층유사도값(Sl(SEa,SEb))을 산출하는 단계; 및
상기 복수의 계층별로 산출된 계층유사도값(Sl(SEa,SEb))의 총합의 값을 상기 복수의 계층의 개수(n, n은 자연수)로 나눈 값을 상기 제2유사도값으로 산출하는 단계;를 수행하되,
상기 예측대상부작용이 발현되는 계층요소의 집합(SEa) 및 각각의 상기 기존부작용이 발현되는 계층요소의 집합(SEb)에 대한 제2유사도값은, 하기 식 (2)를 통해 산출되고,
- 식 (2)
상기 계층유사도값(Sl(SEa,SEb))은, 상기 식 (1)에 의해 산출될 수 있고,
상기 l은 해부학적으로 구분된 복수의 계층 가운데 특정 계층에 해당하고,
상기 n은 해부학적으로 구분된 복수의 계층의 개수에 해당하는, 약물의 부작용을 예측하는 시스템.
As a system for predicting drug side effects,
a first similarity derivation unit for deriving a first similarity value for each of two or more categories between a predicted target drug and a plurality of existing drugs known to have predicted target side effects;
a first similarity representative information derivation unit extracting a maximum value from a plurality of first similarity values for each category and deriving first similarity representative information between the predicted target drug and the predicted target side effect;
a second similarity derivation unit for deriving respective second similarity values between the predicted target side effect and a plurality of existing side effects known for the predicted target drug;
a second similarity representative information derivation unit extracting a maximum value from a plurality of second similarity values and deriving second similarity representative information between the prediction target drug and the prediction target side effect; and
An occurrence possibility prediction unit that inputs the first similarity representative information and the second similarity representative information to the learned inference model unit to derive information on the occurrence possibility of the predicted side effect for the predicted drug; and ,
The categories include, interrelationships between one or more other drugs; node information for genes and proteins; Expression gene information for one or more genes; Symptom information for one or more symptoms or diseases; target gene information for a plurality of target genes; and information about the chemical structure of the drug; contains two or more of
The first similarity derivation unit,
As shown in Equation (1) below, for each category, the set of information on the corresponding category of the drug to be predicted (S A ) and the set of intersection between the set of information on the corresponding category of each existing drug (S B ) A value obtained by dividing the number of elements by the number of elements in the union is calculated as the first similarity value,
- formula (1)
The second similarity derivation unit,
For each of a plurality of anatomically separated hierarchies, the number of elements of the intersection between the set of hierarchical elements in which the predicted side effect is expressed (SE a ) and the set of hierarchical elements in which each of the existing side effects is expressed (SE b ) is the union Calculating a layer similarity value (S l (SE a , SE b )) divided by the number of elements in; and
A value obtained by dividing the sum of the layer similarity values (S l (SE a , SE b )) calculated for each of the plurality of layers by the number of the plurality of layers (n, where n is a natural number) is calculated as the second similarity value. The step of doing;
The second similarity value for the set of hierarchical elements in which the predicted side effect is expressed (SE a ) and the set of hierarchical elements in which each of the existing side effects is expressed (SE b ) is calculated through the following equation (2),
- Eq. (2)
The layer similarity value (S l (SE a , SE b )) can be calculated by Equation (1),
The l corresponds to a specific layer among a plurality of anatomically divided layers,
The system for predicting side effects of drugs, wherein n corresponds to the number of a plurality of anatomically separated layers.
예측대상약물과, 예측대상부작용이 있다고 알려져 있는 복수의 기존약물 사이의 2 이상의 카테고리 각각에 대하여 제1유사도값을 도출하는 단계;
각각의 상기 카테고리에 대한 복수의 상기 제1유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제1유사도대표정보를 도출하는 단계;
상기 예측대상부작용과, 상기 예측대상약물에 대하여 알려져 있는 복수의 기존부작용 사이의 각각의 제2유사도값을 도출하는 단계;
복수의 상기 제2유사도값에서 최대값을 추출하여 상기 예측대상약물과 상기 예측대상부작용 사이의 제2유사도대표정보를 도출하는 단계; 및
상기 제1유사도대표정보 및 상기 제2유사도대표정보를 학습된 추론모델부에 입력하여, 상기 예측대상약물에 대한 상기 예측대상부작용의 발현가능성에 대한 정보를 도출하는 단계;를 포함하고,
상기 카테고리는, 1 이상의 타 약물간의 상호관계; 유전자 및 단백질에 대한 노드정보; 1 이상의 유전자에 대한 발현유전자정보; 1 이상의 증상 혹은 질병에 대한 증상정보; 복수의 타겟유전자에 대한 타겟유전자정보; 및 약물의 화학적 구조에 대한 정보; 중 2 이상을 포함하고,
상기 제1유사도값을 도출하는 단계는,
하기 식 (1)과 같이, 상기 카테고리별로, 상기 예측대상약물의 해당 카테고리에 대한 정보의 집합(SA) 및 각각의 상기 기존약물의 해당 카테고리에 대한 정보의 집합(SB) 사이의 교집합의 원소 수를 합집합의 원소 수로 나눈 값을 상기 제1유사도값으로 산출하고,
- 식 (1)
상기 제2유사도값을 도출하는 단계는,
해부학적으로 구분된 복수의 계층별로, 상기 예측대상부작용이 발현되는 계층요소의 집합(SEa) 및 각각의 상기 기존부작용이 발현되는 계층요소의 집합(SEb) 사이의 교집합의 원소 수를 합집합의 원소 수로 나눈 계층유사도값(Sl(SEa,SEb))을 산출하는 단계; 및
상기 복수의 계층별로 산출된 계층유사도값(Sl(SEa,SEb))의 총합의 값을 상기 복수의 계층의 개수(n, n은 자연수)로 나눈 값을 상기 제2유사도값으로 산출하는 단계;를 포함하되,
상기 예측대상부작용이 발현되는 계층요소의 집합(SEa) 및 각각의 상기 기존부작용이 발현되는 계층요소의 집합(SEb)에 대한 제2유사도값은, 하기 식 (2)를 통해 산출되고,
- 식 (2)
상기 계층유사도값(Sl(SEa,SEb))은, 상기 식 (1)에 의해 산출될 수 있고,
상기 l은 해부학적으로 구분된 복수의 계층 가운데 특정 계층에 해당하고,
상기 n은 해부학적으로 구분된 복수의 계층의 개수에 해당하는, 컴퓨터-판독가능 매체.
As a computer-readable medium for implementing a method for predicting side effects of drugs performed on a computing device having one or more processors and one or more memories,
deriving a first similarity value for each of two or more categories between a predicted target drug and a plurality of existing drugs known to have predicted target side effects;
deriving first similarity representative information between the predicted target drug and the predicted target side effect by extracting a maximum value from the plurality of first similarity values for each category;
deriving each second similarity value between the predicted target side effect and a plurality of existing side effects known for the predicted target drug;
deriving second similarity representative information between the predicted target drug and the predicted target side effect by extracting a maximum value from the plurality of second similarity values; and
Entering the first similarity representative information and the second similarity representative information into the learned inference model unit to derive information about the possibility of occurrence of the predicted side effect for the predicted drug;
The categories include, interrelationships between one or more other drugs; node information for genes and proteins; Expression gene information for one or more genes; Symptom information for one or more symptoms or diseases; target gene information for a plurality of target genes; and information about the chemical structure of the drug; contains two or more of
The step of deriving the first similarity value,
As shown in Equation (1) below, for each category, the set of information on the corresponding category of the drug to be predicted (S A ) and the set of intersection between the set of information on the corresponding category of each existing drug (S B ) A value obtained by dividing the number of elements by the number of elements in the union is calculated as the first similarity value,
- formula (1)
The step of deriving the second similarity value,
For each of a plurality of anatomically separated hierarchies, the number of elements of the intersection between the set of hierarchical elements in which the predicted side effect is expressed (SE a ) and the set of hierarchical elements in which each of the existing side effects is expressed (SE b ) is the union Calculating a layer similarity value (S l (SE a , SE b )) divided by the number of elements in; and
A value obtained by dividing the sum of the layer similarity values (S l (SE a , SE b )) calculated for each of the plurality of layers by the number of the plurality of layers (n, where n is a natural number) is calculated as the second similarity value. Including;
The second similarity value for the set of hierarchical elements in which the predicted side effect is expressed (SE a ) and the set of hierarchical elements in which each of the existing side effects is expressed (SE b ) is calculated through the following equation (2),
- Eq. (2)
The layer similarity value (S l (SE a , SE b )) can be calculated by Equation (1),
The l corresponds to a specific layer among a plurality of anatomically divided layers,
Wherein n corresponds to the number of a plurality of anatomically separated layers, a computer-readable medium.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200126528A KR102530114B1 (en) | 2020-09-29 | 2020-09-29 | Method, System, and Computer-Readable Medium for Predicting Side Effects of Drugs based on Similarity Measurement |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200126528A KR102530114B1 (en) | 2020-09-29 | 2020-09-29 | Method, System, and Computer-Readable Medium for Predicting Side Effects of Drugs based on Similarity Measurement |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220043297A KR20220043297A (en) | 2022-04-05 |
KR102530114B1 true KR102530114B1 (en) | 2023-05-08 |
Family
ID=81181791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200126528A KR102530114B1 (en) | 2020-09-29 | 2020-09-29 | Method, System, and Computer-Readable Medium for Predicting Side Effects of Drugs based on Similarity Measurement |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102530114B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116453710B (en) * | 2023-06-14 | 2023-09-22 | 中国地质大学(武汉) | Drug side effect prediction method and device, electronic equipment and storage medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016212853A (en) * | 2015-04-30 | 2016-12-15 | 富士通株式会社 | Similarity-computation apparatus, side effect determining apparatus and system for calculating similarity between drugs and using the similarities to extrapolate side effect |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160149624A (en) * | 2015-06-18 | 2016-12-28 | 재단법인 전통천연물기반 유전자동의보감 사업단 | Method and apparatus predicting pharmacodynamic drug-drug interactions by the commanlity between drugs |
KR101964694B1 (en) * | 2017-03-28 | 2019-08-07 | 가천대학교 산학협력단 | Device, Method, and Computer-Readable Medium for Judging Drug Similarity |
KR20200023689A (en) * | 2018-08-20 | 2020-03-06 | 아주대학교산학협력단 | The method of artificial intelligence(AI)-based adverse drug reactions detection and the system thereof |
KR102321732B1 (en) * | 2018-12-26 | 2021-11-03 | 가천대학교 산학협력단 | Device, Method, and Computer-Readable Medium for Predicting Change in Efficacy of a Drug Considering SNP |
KR102593989B1 (en) | 2021-02-17 | 2023-10-27 | 성균관대학교산학협력단 | Method and apparatus for detecting adverse reactions of drugs based on machine learning |
-
2020
- 2020-09-29 KR KR1020200126528A patent/KR102530114B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016212853A (en) * | 2015-04-30 | 2016-12-15 | 富士通株式会社 | Similarity-computation apparatus, side effect determining apparatus and system for calculating similarity between drugs and using the similarities to extrapolate side effect |
Also Published As
Publication number | Publication date |
---|---|
KR20220043297A (en) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kline et al. | Multimodal machine learning in precision health: A scoping review | |
Subudhi et al. | Comparing machine learning algorithms for predicting ICU admission and mortality in COVID-19 | |
McComb et al. | Machine learning in pharmacometrics: Opportunities and challenges | |
Celebi et al. | Evaluation of knowledge graph embedding approaches for drug-drug interaction prediction in realistic settings | |
Azadifar et al. | Graph-based relevancy-redundancy gene selection method for cancer diagnosis | |
Hossain et al. | Network analytics and machine learning for predictive risk modelling of cardiovascular disease in patients with type 2 diabetes | |
Pineda et al. | Comparison of machine learning classifiers for influenza detection from emergency department free-text reports | |
Binder et al. | Big data in medical science—a biostatistical view: Part 21 of a series on evaluation of scientific publications | |
Zou et al. | Approaches for recognizing disease genes based on network | |
Yeang et al. | Validation and refinement of gene-regulatory pathways on a network of physical interactions | |
Moni et al. | How to build personalized multi-omics comorbidity profiles | |
Sadeghi et al. | An analytical review of computational drug repurposing | |
KR101964694B1 (en) | Device, Method, and Computer-Readable Medium for Judging Drug Similarity | |
Liu | Identifying network-based biomarkers of complex diseases from high-throughput data | |
Badwan et al. | Machine learning approaches to predict drug efficacy and toxicity in oncology | |
Liou et al. | Applying data mining for the analysis of breast cancer data | |
Ni et al. | Towards phenotyping stroke: Leveraging data from a large-scale epidemiological study to detect stroke diagnosis | |
Luo et al. | Identifying disease-gene associations with graph-regularized manifold learning | |
Mlakar et al. | Mining telemonitored physiological data and patient-reported outcomes of congestive heart failure patients | |
Rashidi et al. | Machine learning in the coagulation and hemostasis arena: an overview and evaluation of methods, review of literature, and future directions | |
Couckuyt et al. | Challenges in translational machine learning | |
Zanin et al. | An early stage researcher's primer on systems medicine terminology | |
Harbola et al. | Bioinformatics and biological data mining | |
KR102530114B1 (en) | Method, System, and Computer-Readable Medium for Predicting Side Effects of Drugs based on Similarity Measurement | |
Long et al. | From function to translation: Decoding genetic susceptibility to human diseases via artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |