KR20200129367A - Method and system for discovery new drug candidate - Google Patents

Method and system for discovery new drug candidate Download PDF

Info

Publication number
KR20200129367A
KR20200129367A KR1020190053667A KR20190053667A KR20200129367A KR 20200129367 A KR20200129367 A KR 20200129367A KR 1020190053667 A KR1020190053667 A KR 1020190053667A KR 20190053667 A KR20190053667 A KR 20190053667A KR 20200129367 A KR20200129367 A KR 20200129367A
Authority
KR
South Korea
Prior art keywords
substance
drug
similarity
database
new drug
Prior art date
Application number
KR1020190053667A
Other languages
Korean (ko)
Other versions
KR102322884B1 (en
Inventor
강재우
전민지
박동현
이진혁
전휘상
고미영
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020190053667A priority Critical patent/KR102322884B1/en
Publication of KR20200129367A publication Critical patent/KR20200129367A/en
Application granted granted Critical
Publication of KR102322884B1 publication Critical patent/KR102322884B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a method and a system for new drug candidate discovery. The method is performed by the system for machine learning-based new drug candidate discovery. The method includes a step of providing a siamese network model learning the score of drug response similarity between first and second substances by comparing an input pair to gene expression information in a database when the input pair on the substances is input based on the database including chemical genome data including the score of drug response similarity based on gene expression information between different compounds. The siamese network model calculates the weights and embedding vectors of the substances and updates the weights such that the similarity score on the substances is calculated using the embedding vectors.

Description

신약 후보 물질의 발굴 시스템 및 그 방법{METHOD AND SYSTEM FOR DISCOVERY NEW DRUG CANDIDATE}New drug candidate discovery system and its method {METHOD AND SYSTEM FOR DISCOVERY NEW DRUG CANDIDATE}

본 발명은 유전체 발현 반응에 근거하여 신약 후보 물질을 도출하기 위한 신약 후보 물질의 발굴 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for discovering new drug candidates for deriving new drug candidates based on a genome expression reaction.

신약은 신약 발견 단계와 신약 개발 단계로 구성된 프로세스에 의해 개발된다. 신약 발견 단계는 타겟 확인, 후보 물질 설계, 효능 측정, 약 후보 물질 선택을 포함한다. 신약 개발 단계에는 안전성 평가와 약물 후보자의 임상 시험이 포함된다. 신약 발견 단계와 신약 개발 단계를 통해 약품을 상용화하는 데는 평균 10-15 년과 26 억 달러가 소요되지만 신약 개발 단계의 성공률은 10 % 미만이다. New drugs are developed by a process consisting of a drug discovery phase and a drug development phase. The new drug discovery phase includes target identification, candidate design, efficacy measurement, and drug candidate selection. The new drug development phase includes safety evaluation and clinical trials of drug candidates. It takes an average of 10-15 years and $2.6 billion to commercialize a drug through the discovery phase and the drug development phase, but the success rate of the drug development phase is less than 10%.

신약 개발 파이프 라인에서 질병에 적합한 타겟을 확인하고 타겟에 결합하는 분자를 찾는 것이 매우 중요하다. 일단 질병에 대한 타겟이 확인되면 타겟에 결합할 수 있는 화합물이 고효율 스크리닝을 통해 발견되고, 타겟에 결합하는 약물의 구조 유사체도 약물 후보 물질로 선택된다. It is very important in the drug development pipeline to identify suitable targets for diseases and find molecules that bind to the targets. Once a target for a disease is identified, a compound capable of binding to the target is found through high-efficiency screening, and a structural analog of a drug that binds to the target is also selected as a drug candidate.

이렇게 약물 후보 물질로 약 5000~10000 개 이상이 선정되지만, 실험과 검증을 거쳐 판매되기까지의 성공률이 0.02% 미만이기 때문에 신약 개발 비용이과 개발 시간이 많이 소요된다. In this way, about 5,000 to 10,000 or more are selected as drug candidates, but the success rate until being sold after testing and verification is less than 0.02%, so the cost of developing a new drug and a lot of development time are required.

이와 같이, 신약 개발 과정은 시간과 비용이 많이 필요할 뿐만 아니라 어려운 과정으로서 개발되는 신약이 실제로 성공할지에 대해서도 장담할 수 없다. 게다가, 제약 업계의 연구 개발 비용은 증가하고 있으며, 새로 승인된 의약품의 수에 대한 연구 개발 비용의 비율로 계산되는 생산성은 1950 년대 이후 매년 꾸준히 감소하고 있다. 신약 개발의 성공은 신약 후보 선택에 달려 있기 때문에 신약 개발 생산성을 높이기 위해 성공확률이 높은 신약 후보를 선택하는 것이 중요하다.As described above, the process of developing a new drug not only requires a lot of time and cost, but it is a difficult process, and there is no guarantee that the new drug to be developed will actually succeed. In addition, research and development costs in the pharmaceutical industry are increasing, and productivity, calculated as the ratio of research and development costs to the number of newly approved drugs, has steadily declined every year since the 1950s. Since the success of new drug development depends on the selection of new drug candidates, it is important to select new drug candidates with a high probability of success in order to increase the productivity of new drug development.

높은 처리량 검사를 사용하는 브루트-포스(Brute-force) 검색은 신약 후보자를 선정하기 위한 하나의 단순 접근법이며, 이를 개선하는 방법으로는 리간드 기반의 신약 발견과 데이터 기반의 신약 발견이라는 두 가지 방법이 있다. Brute-force search using high-throughput testing is a simple approach to selecting new drug candidates, and two ways to improve it are ligand-based drug discovery and data-based drug discovery. There is this.

먼저, 리간드 기반의 신약 발견 방법은 전통적인 방식으로서, 구조가 비슷한 화학 화합물이 동일한 대상에 결합한다는 것을 기본 원칙으로 한다. 일부 FDA 승인 약품이 이미 타겟과의 결합으로 알려진 경우, 이들 약품과 구조가 유사한 구조 유사체(structural analog)가 설계된다. 유사체가 동일한 대상에 결합될 가능성이 높기 때문에 유사체의 생체활동은 알려진 물질과 유사할 것으로 예상된다. FDA가 승인한 약품의 구조 유사체를 신약 후보로 선택함으로써 승인 가능성을 높일 수 있다.First, the ligand-based new drug discovery method is a traditional method, based on the basic principle that chemical compounds with similar structures bind to the same object. When some FDA-approved drugs are already known for binding to the target, structural analogs are designed that are similar in structure to those drugs. Since the analogue is more likely to bind to the same object, the biological activity of the analogue is expected to be similar to that of known substances. The likelihood of approval can be increased by selecting structural analogues of FDA-approved drugs as candidates for new drugs.

그러나, 화합물은 유사한 구조를 가지는 약물들이 유사한 효과를 가지는 것은 아니다. 예를 들어, 두 개의 항당뇨 약물인 로시글리타존과 트롤리타존은 매우 유사한 화학 구조를 공유하지만, 두 약물은 서로 다른 대상과 다른 행동 메커니즘을 가지고 있다. 두 약물의 화학 구조적 유사성이 항상 유사한 효과를 나타낼 것이라는 것을 의미하는 것은 아니기 때문에, 향후 신약 발견은 구조적인 유사체를 보완할 수 있는 반응성 유사체를 찾는 방안을 모색해야 한다.However, drugs with similar structures do not have similar effects in compounds. For example, two antidiabetic drugs, rosiglitazone and trolitazone, share very similar chemical structures, but the two drugs have different targets and different mechanisms of action. Since the chemical and structural similarity of the two drugs does not mean that they will always produce similar effects, future discovery of new drugs should seek ways to find reactive analogs that can complement the structural analogs.

한편, 데이터 기반의 신약 발견 방법은 유도성 개선에 기여할 수 있다. 타겟 접근법 중 하나는 약물-타겟 상호작용을 예측하는 기법이다. 딥러닝(Deep Learning)은 대용량 데이터 세트를 사용하여 원하는 타겟에 결합할 수 있는 약물 후보를 선택하는 데 도움이 된다. On the other hand, a data-based new drug discovery method can contribute to improving inducibility. One of the targeting approaches is a technique for predicting drug-target interactions. Deep Learning uses large data sets to help select drug candidates that can bind to the desired target.

예를 들어, 딥러닝의 CNN을 신약 후보 물질 스크리닝에 활용한 아톰넷(AtomNet)은 분자 결합 친화력 예측을 위한 구조를 이용하는 심층 신경 네트워크이다. 복수의 신경 네트워크 아키텍처들은 화합물 지문, 단백질의 도메인 지문 또는 단백질의 염기서열을 사용하여 복합 단백질 상호작용을 예측한다.For example, AtomNet, which uses deep learning's CNN to screen new drug candidates, is a deep neural network that uses a structure for predicting molecular binding affinity. Multiple neural network architectures predict complex protein interactions using a compound fingerprint, a domain fingerprint of a protein, or a sequence of a protein.

비용과 시간을 단축하기 위하여 타겟과 화합물의 구조 모델링을 통한 스크리닝(Screening)을 수행하는 전통적인 인공지능-기계학습 모델은 랜덤 포리스트(random forest), 단순 베이지안, 그리고 지원 벡터 머신 등이 있으며, 약물 탐색 문제의 복잡도가 높고, 학습 데이터량이 충분하지 않으며, 부정확성 문제로 인해 심층 신경 네트워크 아키텍쳐보다 우수하지 못하다는 문제가 있다. Traditional AI-machine learning models that perform screening through structural modeling of targets and compounds to reduce cost and time include random forest, simple Bayesian, and support vector machines, and drug discovery. Problems are that the complexity of the problem is high, the amount of training data is insufficient, and it is not superior to the deep neural network architecture due to inaccuracies.

따라서, 딥러닝 기반의 약물 탐색 기법은 대부분 화합물의 지문(fingerprint)을 기반으로 심층 신경 네트워크를 학습시키는 방법을 사용한다. 여기서 지문이란 화합물의 구조의 특징을 이진법화한 벡터를 지칭한다. 자주 나타나는 구조(substructure)의 세트를 정해놓고, 각 구조의 존재 여부에 따라 1과 0의 코드를 부여하면 모든 화합물이 일정 길이의 이진법 벡터로 표현되고, 이를 기반으로 화합물 상호간의 구조적 유사도를 빠르고 효율적으로 수행할 수 있다.Therefore, most of the deep learning-based drug discovery techniques use a method of learning a deep neural network based on a fingerprint of a compound. Here, the fingerprint refers to a vector in which the characteristics of the structure of a compound are binary coded. If a set of frequently appearing substructures is determined and codes of 1 and 0 are assigned according to the existence of each structure, all compounds are expressed as binary vectors of a certain length, and based on this, the structural similarity between compounds is quickly and efficiently. Can be done with

그러나 약물의 대상이 다르더라도 의도하지 않은 오프 타겟이나 생물학적 경로를 통한 약물 효과의 전파로 인해 약물의 반응성이 비슷할 수 있다. 약물이 의도하지 않은 타겟과 결부되어 타겟 질병을 치료하는 것이 가능하다. However, even if the target of the drug is different, the responsiveness of the drug may be similar due to unintended off-target or propagation of drug effects through biological pathways. It is possible for the drug to be associated with an unintended target to treat the target disease.

종래의 물질 구조 유사성에 기반한 신약 발견, 약물 타겟 예측, 표현형 예측 방법은 신약 개발의 생산성 향상에 한계가 있고, 예측의 정확도(accuracy)가 구조의 정확성에 의존할 뿐만 아니라, 구조-활성 관계 정보가 축적되어도 예측 정확도의 향상으로 연결되지 않는다는 한계가 있다. Conventional methods of discovering new drugs, predicting drug targets, and predicting phenotypes based on the similarity of the structure of substances have limitations in improving the productivity of new drug development, and the accuracy of prediction depends not only on the accuracy of the structure, but also the structure-activity relationship information. Even if accumulated, there is a limitation that it does not lead to improvement in prediction accuracy.

대한민국 등록특허 제 10-1870963 호(발명의 명칭 : 테트라스파닌-2를 이용한 당뇨병의 예방 또는 치료용 조성물과 당뇨병 치료제 스크리닝 방법)Republic of Korea Patent Registration No. 10-1870963 (Name of invention: composition for preventing or treating diabetes using tetraspanin-2 and screening method for diabetes treatment)

본 발명은 전술한 문제점을 해결하기 위하여, 본 발명의 일 실시예에 따라 두 개의 서브 네트워크로 구성된 샴 네트워크 모델을 이용해 두 물질간의 유전자 발현 정보에 기초하여 약물 반응의 유사도를 학습하고, 학습된 샴 네트워크 모델을 통해 유사한 약물 반응을 공유하는 신약 후보 물질을 발굴할 수 있도록 하는 것에 목적이 있다.In order to solve the above-described problem, the present invention uses a Siamese network model composed of two sub-networks according to an embodiment of the present invention to learn the similarity of drug reactions based on gene expression information between two substances, and The goal is to enable discovery of new drug candidates that share similar drug responses through network models.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may exist.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서 본 발명의 일 실시예에 따른 신약 후보 물질의 발굴 방법은, 기계 학습에 기반하여 신약 후보 물질을 발굴하는 신약 후보 물질의 발굴 시스템에 의해 수행되는 신약 후보 물질의 발굴 방법에 있어서, 서로 다른 화합물간의 유전자 발현 정보에 기초한 약물 반응의 유사도 점수를 포함한 화학 유전체 데이터를 포함하는 데이터베이스에 기초하여 제1 물질과 제2 물질에 대한 입력쌍이 입력 되면, 상기 입력쌍에 대해 상기 데이터베이스 내의 유전자 발현 정보와 비교하여 제1 물질과 제2 물질간의 약물 반응의 유사도 점수를 학습하는 샴 네트워크 모델을 제공하는 단계를 포함하되, 상기 샴 네트워크 모델은, 상기 제1 물질과 제2 물질의 가중치와 임베딩 벡터를 각각 산출하고, 상기 임베딩 벡터를 사용하여 상기 제1 물질과 제2 물질에 대한 상기 유사도 점수가 산출되도록 상기 가중치를 갱신하는 것이다.As a technical means for achieving the above-described technical problem, the method of discovering a new drug candidate according to an embodiment of the present invention is a new drug candidate performed by a new drug candidate discovery system for discovering a new drug candidate material based on machine learning. In the method of discovering a substance, when an input pair for a first substance and a second substance is input based on a database including chemical genome data including a similarity score of a drug reaction based on gene expression information between different compounds, the input pair Providing a Siamese network model for learning a similarity score of a drug reaction between a first substance and a second substance by comparing with gene expression information in the database, wherein the Siamese network model comprises: the first substance and the first substance 2 The weight of the substance and the embedding vector are respectively calculated, and the weight is updated so that the similarity score for the first substance and the second substance is calculated using the embedding vector.

한편, 본 발명의 다른 일 실시예에 따른 신약 후보 물질의 발굴 방법은은, 기계 학습에 기반하여 신약 후보 물질을 발굴하는 신약 후보 물질의 발굴 시스템에 의해 수행되는 신약 후보 물질의 발굴 방법에 있어서, a) 서로 다른 화합물간의 유전자 발현 정보에 기초한 약물 반응의 유사도 점수를 포함한 화학 유전체 데이터를 포함하는 제1 데이터베이스에 기초하여 제1 물질과 제2 물질에 대한 입력쌍이 입력 되면, 상기 제1 물질과 제2 물질에 대한 가중치와 임베딩 벡터를 각각 산출한 후 상기 임베딩 벡터를 이용하여 상기 제1 물질과 제2 물질간의 약물 반응의 유사도 점수가 산출되도록 학습하는 샴 네트워크 모델을 제공하는 단계; b) 상기 유전자 발현 반응에 대해 알려지지 않은 화합물에 대한 특징 정보를 수집 및 관리하는 제2 데이터베이스에서 선택된 제2 물질과 상기 제1 데이터베이스에서 선택된 제1 물질을 입력쌍으로 하여 상기 학습된 샴 네트워크 모델에 입력하고, 상기 학습된 샴 네트워크 모델을 통해 산출된 임베딩 벡터에 기초하여 상기 입력쌍에 대한 유사도 점수를 예측하는 단계; 및 c) 상기 예측된 유사도 점수가 기설정된 임계값 이상인 경우에 상기 제1 물질과 유사 유전자 발현 반응을 가지는 상기 제2 물질을 신약 후보 물질로 선택하는 단계를 포함하는 것이다.On the other hand, in the discovery method of a new drug candidate material according to another embodiment of the present invention, in the discovery method of a new drug candidate material performed by a new drug candidate discovery system for discovering a new drug candidate material based on machine learning, a) When an input pair for a first substance and a second substance is input based on a first database including chemical genome data including a similarity score of drug reactions based on gene expression information between different compounds, the first substance and the second substance 2 Providing a Siamese network model that calculates weights and embedding vectors for substances, and learns to calculate similarity scores of drug reactions between the first substance and the second substance using the embedding vector; b) In the learned Siamese network model, a second material selected from a second database and a first material selected from the first database are used as input pairs for collecting and managing characteristic information on compounds that are unknown to the gene expression response. Inputting and predicting a similarity score for the input pair based on the embedding vector calculated through the learned Siamese network model; And c) selecting the second substance having a gene expression reaction similar to that of the first substance as a candidate substance for a new drug when the predicted similarity score is greater than or equal to a preset threshold.

본 발명의 일 실시예에 다른 신약 후보 물질의 발굴 시스템은, 기계 학습에 기반하여 신약 후보 물질을 발굴하기 위한 방법을 수행하기 위한 프로그램이 기록된 메모리; 및 상기 프로그램을 실행하기 위한 프로세서를 포함하며, 상기 프로세서는, 상기 프로그램의 실행에 의해, 서로 다른 화합물간의 유전자 발현 정보에 기초한 약물 반응의 유사도 점수를 포함한 화학 유전체 데이터를 포함하는 제1 데이터베이스에 기초하여 제1 물질과 제2 물질에 대한 입력쌍이 입력 되면, 상기 입력쌍에 대해 상기 데이터베이스 내의 유전자 발현 정보와 비교하여 제1 물질과 제2 물질간의 약물 반응의 유사도 점수를 학습하는 샴 네트워크 모델을 제공하되, 상기 샴 네트워크 모델은, 상기 제1 물질과 제2 물질의 가중치와 임베딩 벡터를 각각 산출하고, 상기 임베딩 벡터를 사용하여 상기 제1 물질과 제2 물질에 대한 상기 유사도 점수가 산출되도록 상기 가중치를 갱신하는 것이다.A system for discovering new drug candidates according to an embodiment of the present invention includes a memory in which a program for performing a method for discovering new drug candidates based on machine learning is recorded; And a processor for executing the program, wherein the processor is based on a first database including chemical genome data including similarity scores of drug reactions based on gene expression information between different compounds by execution of the program. Thus, when an input pair for the first substance and the second substance is input, a Siamese network model is provided for learning the similarity score of the drug reaction between the first substance and the second substance by comparing the input pair with gene expression information in the database. However, the Siamese network model calculates the weights and embedding vectors of the first material and the second material, respectively, and uses the embedding vector to calculate the similarity score for the first material and the second material. Is to update.

전술한 본 발명의 과제 해결 수단에 의하면, 두 개의 서브 네트워크로 구성된 샴 네트워크 모델을 통해 두 물질의 임베딩 벡터를 추출하고, 두 물질의 임베딩 벡터의 유사도가 실제 유전자 발현 정보에 기초한 약물 반응의 유사도 점수와 비슷해지도록 학습할 수 있다.According to the above-described problem solving means of the present invention, an embedding vector of two substances is extracted through a Siamese network model composed of two sub-networks, and the similarity of the embedding vectors of the two substances is a similarity score of the drug response based on actual gene expression information. You can learn to become similar to

따라서, 본 발명은 두 물질간의 약물 반응의 유사성을 예측할 경우 구조 정보 기반의 표현 방식에 비해 우수한 성능을 보이고, 성공 확률이 높은 신약 후보 물질을 발굴할 수 있는 신약 개발 파이프라인을 현실화할 수 있고, 샴 네트워크 모델로부터 도출된 임베딩 벡터는 물질의 구조 공간이 아니라 유전자 발현 반응 공간에 표현될 수 있어 약물 구조와 더불어 약물 표현에 추가적인 정보로 이용될 수 있다.Accordingly, the present invention can realize a new drug development pipeline capable of discovering new drug candidates with a high probability of success, showing superior performance compared to the structural information-based expression method when predicting the similarity of drug reactions between two substances, The embedding vector derived from the Siamese network model can be expressed in the gene expression response space, not the structure space of the substance, and thus can be used as additional information for drug expression as well as the drug structure.

도 1은 본 발명의 일 실시예에 따른 신약 후보 물질의 발굴 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 신약 후보 물질의 발굴 방법을 설명하는 순서도이다.
도 3은 본 발명이 일 실시예에 따른 샴 네트워크 모델의 학습 과정을 설명하는 도면이다.
도 4는 본 발명의 일 실시예에 따른 신약 후보 물질의 발굴 방법을 설명하는 순서도이다.
도 5는 본 발명의 일 실시예에 따른 입력쌍을 구성하는 일례를 설명하는 도면이다.
도 6은 본 발명의 일 실시예에 따른 학습된 샴 네트워크 모델의 예측 과정을 설명하는 도면이다.
도 7은 본 발명의 일 실시에에 따른 샴 네트워크 모델(ResimNet)과 Mol2vec, ECFP의 성능을 비교한 것이다.
도 8은 본 발명의 일 실시에에 따른 샴 네트워크 모델(ResimNet)과 Mol2vec, ECFP의 정밀도를 비교한 것이다.
도 9는 본 발명의 일 실시예에 따른 제1 데이터베이스 내의 할로페리돌과 유사한 약물 반응을 가지는 후보 물질들의 예측 결과를 설명하는 것이다.
1 is a diagram showing the configuration of a system for discovering new drug candidate substances according to an embodiment of the present invention.
2 is a flowchart illustrating a method of discovering a new drug candidate substance according to an embodiment of the present invention.
3 is a diagram illustrating a learning process of a Siamese network model according to an embodiment of the present invention.
4 is a flowchart illustrating a method of discovering a new drug candidate substance according to an embodiment of the present invention.
5 is a diagram illustrating an example of configuring an input pair according to an embodiment of the present invention.
6 is a diagram illustrating a prediction process of a learned Siamese network model according to an embodiment of the present invention.
7 is a comparison of the performance of a Siamese network model (ResimNet), Mol2vec, and ECFP according to an embodiment of the present invention.
8 is a comparison of the precision of a Siamese network model (ResimNet), Mol2vec, and ECFP according to an embodiment of the present invention.
9 illustrates prediction results of candidate substances having a drug response similar to haloperidol in a first database according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement the present invention. However, the present invention may be implemented in various different forms and is not limited to the embodiments described herein. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and similar reference numerals are assigned to similar parts throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Throughout the specification, when a part is said to be "connected" to another part, this includes not only "directly connected" but also "electrically connected" with another element interposed therebetween. . In addition, when a part "includes" a certain component, it means that other components may be further included, and one or more other features, not excluding other components, unless specifically stated to the contrary. It is to be understood that it does not preclude the presence or addition of any number, step, action, component, part, or combination thereof.

이하의 실시예는 본 발명의 이해를 돕기 위한 상세한 설명이며, 본 발명의 권리 범위를 제한하는 것이 아니다. 따라서 본 발명과 동일한 기능을 수행하는 동일 범위의 발명 역시 본 발명의 권리 범위에 속할 것이다.The following examples are detailed descriptions to aid understanding of the present invention, and do not limit the scope of the present invention. Accordingly, the invention of the same scope performing the same function as the present invention will also belong to the scope of the present invention.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 신약 후보 물질의 발굴 시스템의 구성을 나타낸 도면이다.1 is a diagram showing the configuration of a system for discovering new drug candidate substances according to an embodiment of the present invention.

도 1을 참조하면, 신약 후보 물질의 발굴 시스템(100)은 통신 모듈(110), 메모리(120), 프로세서(130) 및 데이터베이스(140)를 포함한다.Referring to FIG. 1, a system 100 for discovering new drug candidates includes a communication module 110, a memory 120, a processor 130, and a database 140.

상세히, 통신 모듈(110)은 통신망(300)과 연동하여 신약후보 물질의 발굴 시스템(100)으로 송수신되는 신호를 패킷 데이터 형태로 제공하는 데 필요한 통신 인터페이스를 제공한다. 여기서, 통신 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.In detail, the communication module 110 interworks with the communication network 300 to provide a communication interface required to provide a signal transmitted and received to the system 100 for discovering new drug candidates in the form of packet data. Here, the communication module 110 may be a device including hardware and software necessary for transmitting and receiving a signal such as a control signal or a data signal through a wired or wireless connection with another network device.

메모리(120)는 기계 학습에 기반하여 신약 후보 물질의 발굴 방법을 수행하기 위한 프로그램이 기록된다. 또한, 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 여기서, 메모리(120)는 휘발성 저장 매체(volatile storage media) 또는 비휘발성 저장 매체(non-volatile storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.The memory 120 records a program for performing a method of discovering new drug candidate substances based on machine learning. In addition, the processor 130 performs a function of temporarily or permanently storing the data processed. Here, the memory 120 may include a volatile storage medium or a non-volatile storage medium, but the scope of the present invention is not limited thereto.

프로세서(130)는 기계 학습에 기반하여 신약 후보 물질의 발굴 방법을 제공하는 전체 과정을 제어한다. 프로세서(130)가 수행하는 각각의 동작에 대해서는 추후 보다 상세히 살펴보기로 한다. The processor 130 controls the entire process of providing a method of discovering new drug candidates based on machine learning. Each operation performed by the processor 130 will be described in more detail later.

여기서, 프로세서(130)는 프로세서(processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.Here, the processor 130 may include all types of devices capable of processing data, such as a processor. Here, the'processor' may refer to a data processing device embedded in hardware having a circuit physically structured to perform a function represented by a code or instruction included in a program. As an example of a data processing device built into the hardware as described above, a microprocessor, a central processing unit (CPU), a processor core, a multiprocessor, and an application-specific integrated (ASIC) circuit) and processing devices such as field programmable gate arrays (FPGAs), but the scope of the present invention is not limited thereto.

데이터베이스(140)는 신약 후보 물질의 발굴방법을 수행하면서 누적되는 데이터가 저장된다. 예컨대, 이미 알려진 화합물 데이터 집합을 제1 데이터베이스(141)에 저장하고, 제1 데이터베이스(141)에 저장된 데이터 집합을 제외한 화합물 데이터 집합을 제2 데이터베이스(142)에 저장할 수 있다. The database 140 stores data accumulated while performing a method of discovering new drug candidates. For example, a known compound data set may be stored in the first database 141 and a compound data set excluding the data set stored in the first database 141 may be stored in the second database 142.

도 2는 본 발명의 일 실시예에 따른 신약 후보 물질의 발굴 방법을 설명하는 순서도이고, 도 3은 본 발명이 일 실시예에 따른 샴 네트워크 모델의 학습 과정을 설명하는 도면이다. 2 is a flow chart illustrating a method of discovering a new drug candidate substance according to an embodiment of the present invention, and FIG. 3 is a diagram illustrating a learning process of a Siamese network model according to an embodiment of the present invention.

도 2를 참조하면, 신약 후보 물질의 발굴 방법은, 먼저 화합물에 대한 화학 유전체 데이터를 포함하는 데이터 집합을 구성하고, 데이터 집합에 기초하여 서로 다른 화합물간의 유전자 발현 반응의 유사도 점수를 포함한 차등 유전자 발현 값을 수집 및 관리하는 제1 데이터베이스(141)를 구축한다(S110). Referring to FIG. 2, in the method of discovering a new drug candidate, first, a data set including chemical genome data for a compound is constructed, and differential gene expression including a similarity score of gene expression reactions between different compounds based on the data set A first database 141 for collecting and managing values is built (S110).

제1 데이터베이스(141)에는 차등 유전자 발현 값에 따른 순서로 화합물을 저장하고, 각 화합물의 유전자 발현 패턴 및 유전자 발현 패턴으로부터 예측된 유전자의 발현량을 포함한 약물유도 전사체를 포함하는 연결 지도(Connectivity Map, CMap)를 활용하여 데이터세트를 구성한다. 이때, 유전자 발현 반응의 유사도 점수는 화합물들 사이의CMap 점수가 될 수 있다. CMap 점수는 화합물, 9개 핵심 세포 라인(A375, A549, HA1E, HCC515, HEPG2, HT29, MCF7, PC3, VCAP)에 걸친 유전자의 기능 이득, 유전자의 기능 손실과 같은 섭동학자의 프로파일된 특징에 기초한 유사도 점수이다. The first database 141 stores compounds in order according to differential gene expression values, and a connectivity map including drug-induced transcripts including gene expression patterns of each compound and gene expression levels predicted from gene expression patterns. Map, CMap) to compose a dataset. At this time, the similarity score of the gene expression response may be a CMap score between compounds. The CMap score was based on the perturbator's profiled features such as the compound, gain of function of the gene across 9 key cell lines (A375, A549, HA1E, HCC515, HEPG2, HT29, MCF7, PC3, VCAP), and loss of function of the gene. It is a similarity score.

2006년 미국 브로드 연구소에서 공개한CMap은 다양한 화학유전체 데이터를 제공하고 있어, 약물의 기전해석, 미지의 약물 타겟 규명, 다수의 신약재창출 및 분화제어 약물 발굴 등에 활용되고 있다. CMap, which was released by Broad Institute in the United States in 2006, provides a variety of chemogenetic data, and is used for drug mechanism analysis, identification of unknown drug targets, re-creation of many new drugs, and discovery of drugs that control differentiation.

이때, 약물 유도 전사체 데이터는 기존의 약물-타겟 및 생리활성 데이터와 차별화된 정보를 제공한다. 즉 약물 유도 전사체 데이터는 약물의 알려진 온타켓(on-target) 뿐만 아니라 미지의 오프 타켓(off-target)에 의한 효과까지도 반영하며, 전사체 수준에서 약물 작용 기전(mode of action)에 대한 객관적이고 총체적인 정보를 제공하고, 질환 모델 전사체와의 비교 분석을 통해 신약재창출이 가능하도록 한다. At this time, the drug-derived transcript data provides information differentiated from the existing drug-target and physiological activity data. In other words, drug-derived transcriptome data reflects the effects of not only the known on-target of the drug, but also the unknown off-target, and is objective for the mode of action at the transcript level. It provides comprehensive information and makes it possible to create new drugs through comparative analysis with disease model transcripts.

따라서, CMap을 활용한 제1 데이터베이스(141)는 기존의 타겟형 신약 후보 선정을 보완하여 약물 반응 기반의 신약 후보 물질을 발굴하도록 할 수 있다. 즉, 유전자 발현 특징이 동일한 약물 활동을 유도하는 서로 다른 약물과 연결하기 위한 유사성 분석을 수행할 수 있다. Accordingly, the first database 141 using CMap may supplement the selection of existing target-type new drug candidates to discover new drug candidates based on drug reactions. In other words, a similarity analysis for linking with different drugs that induce drug activity having the same gene expression characteristics may be performed.

프로세서(130)는 제1 데이터베이스(141) 내의 제1 물질과 제2 물질로 이루어진 입력쌍에 대한 각 특징 정보가 입력 되면, 제1 물질과 제2 물질에 대한 유전자 발현 반응의 유사도 점수를 학습하는 샴 네트워크 모델을 제공한다(S120). 이때, 샴 네트워크 모델은 기계 학습 중 딥 러닝에 기반하여 구축되지만, 유전자 발현 반응의 유사도 점수를 학습하기 위한 기계 학습 모델은 딥러닝 이외에 여러 기계 학습을 이용하여 구축될 수 있다. 기계 학습은 크게 지도학습, 비지도 학습, 강화 학습으로 분류될 수 있고, 특히 강화학습은 딥러닝, 큐러닝(Q-Learning), 딥러닝과 큐러닝이 결합한 DQN(Deep-Q-Network) 알고리즘이 대표적으로 사용된다. The processor 130 learns a similarity score of the gene expression response for the first substance and the second substance when each characteristic information of the input pair consisting of the first substance and the second substance in the first database 141 is input. A Siamese network model is provided (S120). In this case, the Siamese network model is built based on deep learning during machine learning, but a machine learning model for learning the similarity score of a gene expression response may be built using various machine learning in addition to deep learning. Machine learning can be largely classified into supervised learning, unsupervised learning, and reinforcement learning.In particular, reinforcement learning is a Deep-Q-Network (DQN) algorithm that combines deep learning, Q-Learning, and deep learning and Q-learning. Is typically used.

샴 네트워크 모델은 서로 다른 물질의 구조적 정보가 입력되면, 각 물질의 유전자 발현 반응의 유사도 점수를 학습하는데, 상기 제1 물질과 제2 물질의 가중치와 임베딩 벡터를 산출한다. 샴 네트워크 모델에 의해 도출된 임베딩 벡터는 신약뿐만 아니라 다른 어플리케이션의 화합물을 나타내는 입력으로 사용될 수 있다.In the Siamese network model, when structural information of different substances is input, the similarity score of the gene expression response of each substance is learned, and weights and embedding vectors of the first substance and the second substance are calculated. The embedding vector derived by the Siamese network model can be used as an input representing a compound in other applications as well as new drugs.

이때, 입력쌍은 화합물 구조의 특징을 나타내는 구조 기반 벡터로 표현되어 샴 네트워크 모델의 입력 데이터로 제공된다(S130). 입력 데이터는 SMILES(simplified molecular-input line-entry system), InChIKey, InChI(IUPAC International Chemical Identifier), ECFP(Extended Connectivity FingerPrint) Mol2vec, 분자 그래프(molecule graph)중 어느 하나의 화합물에 대한 입력 표현 포맷을 사용할 수 있다. 특히, 다양한 입력 표현 포맷 중에 ECFP를 샴 네트워크 모델의 입력 표현 포맷으로 사용함으로써 물질들의 반응 유사성과 하부 구조 사이의 관계를 확인할 수 있다. In this case, the input pair is expressed as a structure-based vector representing the characteristics of the compound structure and is provided as input data of the Siamese network model (S130). The input data is an input expression format for any one compound among SMILES (simplified molecular-input line-entry system), InChIKey, InChI (IUPAC International Chemical Identifier), ECFP (Extended Connectivity FingerPrint) Mol2vec, and molecular graph. Can be used. In particular, by using ECFP as the input expression format of the Siamese network model among various input expression formats, the relationship between the reaction similarity of substances and the substructure can be confirmed.

따라서, 입력 데이터는 제1 물질 및 제2 물질의 화학구조식 파일을 소프트웨어 도구세트(RDkit, RDkit3, OpenBabel, Marvin View의 molconvert 등)를 이용하여 화학 구조로 표현함으로써 제1 물질 및 제2 물질의 특징 정보가 제공될 수 있도록 한다. Therefore, the input data is characterized by the chemical structure of the first substance and the second substance by expressing the chemical structure files of the first substance and the second substance in a chemical structure using a software tool set (RDkit, RDkit3, OpenBabel, Marvin View's molconvert, etc.). Make sure information is available.

도 3에 도시된 바와 같이, 샴 네트워크 모델(300)은 가중치를 공유하는 제1 서브 네트워크(310)와 제2 서브 네트워크(320)로 구성된다. 제1 서브 네트워크(310)에는 제1 물질에 대한 구조 정보가 입력되며, 제2 서브 네트워크(320)에는 제2 물질에 대한 구조 정보가 입력되고, 제1 서브 네트워크(310)와 제2 서브 네트워크(320)는 제1 물질과 제2 물질의 유전자 발현 반응의 유사도를 학습하고, 학습 중에 가중치를 동시에 갱신한다. 따라서, 샴 네트워크 모델(300)은 한 쌍의 물질들 사이의 전사 반응 기반의 유사성을 예측할 수 있고, 유사하지 않은 구조의 물질들인 경우에도 유사 반응을 갖는 서로 다른 화합물의 쌍을 탐색할 수 있다. As shown in FIG. 3, the Siamese network model 300 includes a first sub-network 310 and a second sub-network 320 that share weights. Structure information on the first material is input to the first sub-network 310, structure information on the second material is input to the second sub-network 320, and the first sub-network 310 and the second sub-network Step 320 learns the similarity of the gene expression response of the first substance and the second substance, and simultaneously updates the weights during the learning. Accordingly, the Siamese network model 300 can predict the similarity based on a transcriptional reaction between a pair of substances, and can search for pairs of different compounds having similar reactions even when substances having dissimilar structures.

프로세서(130)는 제1 물질(Erlotinib)과 제2 물질(Gefitinib)의 구조 정보를 나타내는2048비트의 ECFP 벡터를 샴 네트워크 모델(300)의 입력 데이터로 제공하고, 샴 네트워크 모델의 출력 데이터(tab)를 제1 데이터베이스(141)에 기초하여 제1 물질과 제2 물질에 대한 유사도 점수(Cmap 점수)로 설정한다(S140). The processor 130 provides a 2048-bit ECFP vector representing the structure information of the first material (Erlotinib) and the second material (Gefitinib) as input data of the Siamese network model 300, and output data of the Siamese network model (t ab ) is set as a similarity score (Cmap score) for the first substance and the second substance based on the first database 141 (S140).

샴 네트워크 모델(300)은 가중치를 공유하는 제1 서브 네트워크(310)와 제2 서브 네트워크(320)에 제1 물질 및 제2 물질의 입력쌍을 제공하면, 제1 서브 네트워크(310)는 제1 물질에 대한 가중치와 임베딩 벡터(ca)를 산출하고, 제2 서브 네트워크(320)는 제2 물질에 대한 가중치와 임베딩 벡터 (cb)를 산출한다(S150). When the Siamese network model 300 provides an input pair of the first material and the second material to the first sub-network 310 and the second sub-network 320 that share weights, the first sub-network 310 is The weight and embedding vector (c a ) for one material are calculated, and the second sub-network 320 calculates the weight and embedding vector (c b ) for the second material (S150).

이때, 각 임베딩 벡터(ca, cb)는 가중치를 포함한 공유 파라미터를 사용하여 하기 수학식 1에 의해 계산된다. 샴 네트워크 모델(300)은 약물 반응이 유사한 두 물질이 벡터 공간에서 서로 가까이 위치하도록 중간 단계로서 각 물질의 임베딩 벡터를 도출하는 것이고, 이러한 임베딩 벡터는 약물의 구조 공간이 아니라 유전자 발현 반응 공간에 표현되므로 신약뿐만 아니라 다른 어플리케이션에 복합적인 벡터로 사용될 수 있다. At this time, each embedding vector (c a , c b ) is calculated by Equation 1 below using a shared parameter including a weight. The Siamese network model 300 derives the embedding vector of each substance as an intermediate step so that two substances with similar drug reactions are located close to each other in the vector space, and these embedding vectors are expressed in the gene expression reaction space, not the structural space of the drug. Therefore, it can be used as a complex vector for not only new drugs but also other applications.

[수학식 1][Equation 1]

Figure pat00001
Figure pat00001

수학식 1에서 W1, W2은 가중치, b1, b2은 바이어스, f()는 요소-바이어스 비선형 활성화 함수이고, 각 임베딩 벡터의 공유 파라미터는

Figure pat00002
,
Figure pat00003
,
Figure pat00004
을 사용하여 계산된다. 여기서, h 는 은닉층의 차수이고, e는 출력층의 차수로서, h=512, e=300으로 설정될 수 있다. In Equation 1, W 1 , W 2 are weights, b 1 , b 2 are bias, f() is an element-bias nonlinear activation function, and the shared parameter of each embedding vector is
Figure pat00002
,
Figure pat00003
,
Figure pat00004
Is calculated using Here, h is the order of the hidden layer, e is the order of the output layer, and may be set to h=512 and e=300.

샴 네트워크 모델(300)은 CMap 점수를 예측하기 위해 제1 서브 네트워크(310)와 제2 서브 네트워크(320)의 임베딩 벡터(ca, cb)의 코사인 유사도(cosine similarity)(Sab)를 하기 수학식 2에 의해 계산한다. The Siamese network model 300 calculates the cosine similarity (S ab ) of the embedding vectors (c a , c b ) of the first sub-network 310 and the second sub-network 320 in order to predict the CMap score. It is calculated by the following equation (2).

[수학식 2][Equation 2]

Figure pat00005
Figure pat00005

한편, 임베딩 벡터 간의 유사도는 코사인 유사도 뿐만 아니라 L1 거리(L1 Distance or Manhattan Distance), L2 거리(L2 Distance or Euclidean Distance) 등의 다양한 벡터 간의 유사도 계산 방식을 사용하여 계산될 수 있다. Meanwhile, the similarity between embedding vectors may be calculated using a similarity calculation method between various vectors such as an L1 distance (L1 Distance or Manhattan Distance) and an L2 distance (L2 Distance or Euclidean Distance) as well as cosine similarity.

즉, 임베딩 벡터의 유사도는 하기 수학식 3에 의한 L1 거리(L1 Distance)(

Figure pat00006
)로 산출되거나, 하기 수학식 4에 의한 L2 거리(L2 Distance)(
Figure pat00007
)로 산출될 수 있다. That is, the similarity of the embedding vector is L1 distance (L1 Distance) (
Figure pat00006
), or L2 distance (L2 Distance) according to Equation 4 below (
Figure pat00007
) Can be calculated.

[수학식 3] [Equation 3]

Figure pat00008
Figure pat00008

[수학식 4] [Equation 4]

Figure pat00009
Figure pat00009

또한, 샴 네트워크 모델(300)은 출력 데이터(tab)와 코사인 유사도(Sab)를 이용한 손실 함수(J(θ))를 하기 수학식 5에 의해 계산하고, 손실 함수의 결과값이 최소화되도록 학습을 통해 최적의 가중치를 결정한다(S160, S170). 이렇게 결정된 최적의 가중치는 제1 서브 네트워크(310)와 제2 서브 네트워크(320)에 동시에 갱신됨으로써 샴 네트워크 모델(300)은 두 물질간의 유전자 발현 정보에 기초한 약물 반응의 유사성을 학습할 수 있다. In addition, the Siamese network model 300 calculates the loss function (J(θ)) using the output data (t ab ) and the cosine similarity (S ab ) by Equation 5 below, so that the resulting value of the loss function is minimized. Optimal weights are determined through learning (S160, S170). The optimal weight determined in this way is simultaneously updated in the first sub-network 310 and the second sub-network 320, so that the Siamese network model 300 can learn the similarity of the drug response based on gene expression information between the two substances.

[수학식 5][Equation 5]

Figure pat00010
Figure pat00010

수학식 5에서, N은 입력쌍에 대한 학습 데이터 총수이고, θ 는 학습 가능한 가중치 매개변수를 각각 나타낸다. 코사인 유사도의 범위가 -1에서 +1까지이므로, 원래 척도가 -100에서 +100까지인 CMap 점수를 100으로 나누어 코사인 유사도의 범위와 CMap점수의 범위가 일치하도록 한다. 제1 물질과 제2 물질의 유사도 점수(CMap점수)가 각 임베딩 벡터(ca, cb)의 코사인 유사도와 어느 정도 유사한지를 비교할 수 있다. In Equation 5, N is the total number of training data for an input pair, and θ represents a weight parameter that can be learned, respectively. Since the range of cosine similarity is from -1 to +1, the CMap score whose original scale is from -100 to +100 is divided by 100 so that the range of cosine similarity and the range of CMap score are identical. It is possible to compare how similar the similarity score (CMap score) of the first material and the second material is with the cosine similarity of each embedding vector (c a , c b ).

도 4는 본 발명의 일 실시예에 따른 신약 후보 물질의 발굴 방법을 설명하는 순서도이고, 도 5는 본 발명의 일 실시예에 따른 입력쌍을 구성하는 일례를 설명하는 도면이며, 도 6은 본 발명의 일 실시예에 따른 학습된 샴 네트워크 모델의 예측 과정을 설명하는 도면이다. 4 is a flowchart illustrating a method of discovering a new drug candidate substance according to an embodiment of the present invention, FIG. 5 is a diagram illustrating an example of configuring an input pair according to an embodiment of the present invention, and FIG. 6 is A diagram for explaining a prediction process of a learned Siamese network model according to an embodiment of the present invention.

도 4 내지 도 6을 참조하면, 프로세서(130)는 유전자 발현 정보가 알려지지 않은 화합물에 대한 분자 구조, 물성, 표현자 등의 특징 정보를 수집 및 관리하는 제2 데이터베이스(142)를 제공한다(S210).4 to 6, the processor 130 provides a second database 142 that collects and manages characteristic information such as molecular structure, physical property, and expression for a compound whose gene expression information is unknown (S210). ).

제2 데이터베이스(142)는 ZINC15 데이터베이스가 될 수 있고, ZINC15 데이터베이스는 2억 3천만 개 이상의 화합물을 포함하고 있으며, 각 화합물은 고유한 등록번호 (registry number)와 이름이 부여되고, 구매 가능하며, 리핀스키(Lipinski) 규칙을 충족하는 약 1만 6천 개의 ZINC15 화합물을 선정할 수 있다. 이렇게 선정된 화합물들은 제1 데이터베이스(141)에 등록되지 않은, 즉 유전자 발현 정보가 알려지지 않은 화합물이다.The second database 142 may be a ZINC15 database, and the ZINC15 database contains more than 230 million compounds, and each compound is assigned a unique registration number and name, and is available for purchase, About 16,000 ZINC15 compounds can be selected that meet the Lipinski rules. The selected compounds are compounds that are not registered in the first database 141, that is, the gene expression information is unknown.

프로세서(130)는 제1 데이터베이스(141)에서 제1 물질을 선택하고, 제2 데이터베이스(142)에서 제2 물질을 선택하여 제1 물질과 제2 물질로 이루어진 입력쌍을 구성한다(S220).The processor 130 selects a first material from the first database 141 and selects a second material from the second database 142 to configure an input pair consisting of the first material and the second material (S220).

도 6에 도시된 바와 같이, 프로세서(130)는 제1 데이터베이스(141)에 기초하여 제1 물질과 제2 물질을 선택하여 입력쌍(KK pair)을 구성한 경우, 해당 입력쌍은 샴 네트워크 모델의 학습을 위한 학습 데이터세트가 된다.As shown in FIG. 6, when the processor 130 configures an input pair (KK pair) by selecting a first material and a second material based on the first database 141, the input pair is the Siamese network model. It becomes a training dataset for learning.

한편, 프로세서(130)는 제1 데이터베이스에 기초하여 제1 물질을 선택하고, 제2 데이터베이스에 기초하여 제2 물질을 선택하여 입력쌍(KU pair)을 구성한 경우 해당 입력쌍은 신약 후보 물질 선택을 위한 유효성 검증 및 시험 데이터세트가 되고, 제2 데이터베이스에 기초하여 제1 물질과 제2 물질을 선택하여 입력(UU pair)쌍을 구성한 경우 해당 입력쌍은 약물 반응의 유사성을 측정하기 위한 시험 데이터세트가 된다. Meanwhile, when the processor 130 selects a first substance based on the first database and selects a second substance based on the second database to form an input pair (KU pair), the input pair selects a new drug candidate substance. When a pair of inputs (UU pair) is formed by selecting the first substance and the second substance based on the second database, and the corresponding input pair is a test data set for measuring the similarity of drug response. Becomes.

여기서, KK 쌍은 (Known compound, Known compound), KU 쌍은 (Known compound, Unknown compound), UU 쌍은 (Unknown compound, Unknown compound)로서, 유전자 발현 정보가 알려진 K 화합물은 90%, 유전자 발현 정보가 알려지지 않은 U 화합물은 10%로 무작위로 구분되고, U 화합물은 학습 데이터세트에서 제외된다.Here, KK pair is (Known compound, Known compound), KU pair is (Known compound, Unknown compound), UU pair is (Unknown compound, Unknown compound), K compound with known gene expression information is 90%, gene expression information U compounds with unknowns are randomly divided into 10%, and U compounds are excluded from the training dataset.

데이터 집합에 complex A, complex B, complex C, complex D, complex E가 있고, K 화합물은 A, B, C이며, U 화합물은 D, E라고 가정할 경우에 학습 데이터 세트는 (A, B), (A, C)로 구성되고, 시험 데이터세트는 (B, C), (A, D), (D, E)로 구성될 수 있다. Assuming that the dataset contains complex A, complex B, complex C, complex D, and complex E, K compounds are A, B, C, and U compounds are D, E, the training dataset is (A, B). , (A, C), and the test dataset can be composed of (B, C), (A, D), (D, E).

프로세서(130)는 입력쌍을 학습된 샴 네트워크 모델(300)에 입력하고(S230), 샴 네트워크 모델은 제1 물질과 제2 물질에 대한 임베딩 벡터를 각각 산출한다(S240). The processor 130 inputs the input pair to the learned Siamese network model 300 (S230), and the Siamese network model calculates embedding vectors for the first material and the second material, respectively (S240).

프로세서(130)는 제1 물질에 대한 임베딩 벡터와 제2 물질에 대한 임베딩 벡터의 유사도를 이용하여 약물 반응의 유사도 점수, 즉 Cmap 점수를 예측한다(S250). 이때, 임베딩 벡터는 상기한 수학식 1에 의해 산출되고, 임베딩 벡터의 유사도는 상기한 수학식 2에 의한 코사인 유사도를 통해 산출될 수 있다. The processor 130 predicts a similarity score, that is, a Cmap score, of a drug response by using the similarity of the embedding vector for the first substance and the embedding vector for the second substance (S250). In this case, the embedding vector is calculated by Equation 1 above, and the similarity of the embedding vector may be calculated through the cosine similarity according to Equation 2 above.

이렇게 예측된 두 물질의 유사도 점수가 기설정된 임계값 이상인 경우에, 상기 제1 물질과 유사 유전자 발현 반응을 가지는 상기 제2 물질을 신약 후보 물질로 선택한다(S260). When the predicted similarity score of the two substances is equal to or higher than a preset threshold, the second substance having a similar gene expression reaction with the first substance is selected as a new drug candidate substance (S260).

이와 같이, 본 발명의 일 실시예에 따른 신약 후보 물질의 발굴 방법은 학습된 샴 네트워크 모델을 이용하여 두 물질간의 약물 반응의 유사성을 예측할 수 있다. 즉, 샴 네트워크 모델은 두 물질의 구조 정보가 입력되면 두 물질간의 차별 유전자 발현 정보의 유사성을 학습하기 위해 두 물질에 대한 임베딩 벡터의 코사인 유사도를 산출하고, 이 임베딩 벡터의 코사인 유사도를 이용하여 두 물질에 대한 유사성 점수를 예측한다. As described above, in the method of discovering a new drug candidate substance according to an embodiment of the present invention, the similarity of drug reactions between two substances may be predicted using the learned Siamese network model. In other words, the Siamese network model calculates the cosine similarity of the embedding vector for the two substances to learn the similarity of the differential gene expression information between the two substances when structural information of two substances is input, and uses the cosine similarity of the embedding vector. Predict the similarity score for the substance.

따라서, 샴 네트워크 모델에서 예측된 유사성 점수를 실제 CMap 점수의 유사성과 비교하여 샴 네트워크 모델의 성능을 확인할 수 있다. 설명의 편의상 샴 네트워크 모델을 'ResimNet(Response Similarity Prediction based on a Siamese Neural Network)'이라고 한다. Therefore, the performance of the Siamese network model can be confirmed by comparing the similarity score predicted in the Siamese network model with the similarity of the actual CMap score. For convenience of explanation, the Siamese network model is called'Response Similarity Prediction based on a Siamese Neural Network'.

ResimNet의 성능을 ECFP, Mol2vec 등의 구조 기반의 벡터 형태로 표현되는 복합 표현 방식의 성능과 비교하면, ResimNet은 리간드 기반의 약물 발굴과 같은 구조적인 유사체 기반의 약물 발굴 방법보다 더 효과적임을 알 수 있다. 이때, ECFP는 원형 위상 지문으로서 2048비트 ECFP 벡터를 사용한다. 또한, Mol2vec는 분자의 하부 구조를 단어로, 전체 구조를 문장으로 간주해 Word2vec를 적용한다. Comparing the performance of ResimNet with the performance of complex expression methods expressed in the form of structure-based vectors such as ECFP and Mol2vec, ResimNet is more effective than a structural analog-based drug discovery method such as ligand-based drug discovery. . At this time, the ECFP uses a 2048-bit ECFP vector as a circular phase fingerprint. In addition, Mol2vec applies Word2vec by considering the substructure of the molecule as a word and the entire structure as a sentence.

각 화합물에 대해 300차원 Mol2vec 벡터를 생성하고, ECFP로 대표되는 한 쌍의 화합물의 자카드(Jaccard) 유사도를 계산하며, 두 화합물 사이의 구조적 유사성을 얻기 위해 Mol2vec로 대표되는 한쌍의 임베딩 벡터의 코사인 유사도를 계산한다.For each compound, a 300-dimensional Mol2vec vector is generated, the Jaccard similarity of a pair of compounds represented by ECFP is calculated, and the cosine similarity of a pair of embedding vectors represented by Mol2vec to obtain structural similarity between the two compounds Calculate

도 5에 도시된 바와 같이, 시험 데이터세트의 표본 유형은 KK 쌍, KU 쌍 또는 UU 쌍이다. K는 학습 데이터세트에 사용되는 화합물을 나타내고, U는유효성 검증 및 시험에 사용되는 화합물을 나타낸다. 시험 데이터세트에서 KK 쌍이 존재하지만, 학습 데이터세트에서 한 쌍으로 함께 한 적이 없는 한 쌍의 화합물을 의미한다. As shown in Fig. 5, the sample types of the test dataset are KK pairs, KU pairs, or UU pairs. K represents the compound used in the learning dataset, and U represents the compound used in validation and testing. It refers to a pair of compounds that existed in the test dataset, but never joined together as a pair in the training dataset.

샴 네트워크 모델에 의해 예측된 유사성 점수가 높은 KK 쌍의 결과를 이용하여, 알려진 화합물의 새로운 사용을 가정할 수 있는데, 이것은 약물 재배치로 간주될 수 있다. KU 쌍의 결과는 샴 네트워크 모델이 잘 알려진 약물과 비슷한 약물 후보를 찾을 수 있는지를 판단하는 데 사용될 수 있다. UU 쌍의 결과는 알려지지 않은 화합물들 사이의 약물 반응성이 얼마나 유사한지를 측정하는데 사용될 수 있다.Using the results of a KK pair with a high similarity score predicted by the Siamese network model, a new use of a known compound can be assumed, which can be considered a drug relocation. The results of the KU pair can be used to determine whether the Siamese network model can find drug candidates similar to well-known drugs. The results of the UU pair can be used to determine how similar the drug reactivity between unknown compounds is.

도 7은 본 발명의 일 실시에에 따른 샴 네트워크 모델(ResimNet)과 Mol2vec, ECFP의 성능을 비교한 것이다. 7 is a comparison of the performance of a Siamese network model (ResimNet), Mol2vec, and ECFP according to an embodiment of the present invention.

도 7에 도시된 바와 같이, 전반적으로 ResimNet 결과는 ResimNet이 시험 데이터세트에서 예측된 유사성 점수와 총 샘플 수에 대한 CMap 점수 사이의 0.447(p-값 < 10-6)의 피어슨(Pearson) 상관관계를 달성함을 알 수 있다. p-값은 예측값의 백만 배율로 구하였다. 피어슨 상관 계수는 KK 쌍, KU 쌍, UU 쌍에 대해 각각 0.606, 0.34, 0.12로 달성된다.As shown in Fig.7, overall ResimNet results show a Pearson correlation of 0.447 (p-value <10-6) between the similarity score predicted by ResimNet in the test dataset and the CMap score for the total number of samples. Can be seen to achieve. The p-value was obtained as one million times the predicted value. Pearson correlation coefficients are achieved as 0.606, 0.34, and 0.12 for KK pairs, KU pairs, and UU pairs, respectively.

Mol2vec와 ECFP와 같은 구조 기반 벡터에 의해 얻어진 구조 유사도와 CMap 점수 사이의 피어슨 상관 계수는 모든 쌍 유형에 대해 ResimNet의 피어슨 상관계수보다 좋지 않음을 알 수 있다. It can be seen that the Pearson correlation coefficient between the structure similarity and the CMap score obtained by structure-based vectors such as Mol2vec and ECFP is not better than the Pearson correlation coefficient of ResimNet for all pair types.

더욱이 모든 쌍의 유형에 대해 예측된 유사성 점수에 기초하여 상위 k%의 표본을 사용하여 평균 제곱 오차(MSE) 값을 계산할 때 ReimsNet의 MSE 값은 Mol2vec 및 ECFP 값보다 현저히 낮다. 또한 AUROC(Area Under Curve Receiver-Operating Characteristic) 값을 측정하기 위해 표본이 CMap 점수가 0.9 이상인 경우 포지티브 라벨이 제공되며, 그렇지 않은 경우 네거티브 라벨이 제공된다. CMap 점수의 임계값은 CMap에서 사용된 유사성 기준에 기초한다. Moreover, when calculating the mean squared error (MSE) values using the top k% of samples based on the predicted similarity scores for all pair types, ReimsNet's MSE values are significantly lower than the Mol2vec and ECFP values. In addition, in order to measure the Area Under Curve Receiver-Operating Characteristic (AUROC) value, if the sample has a CMap score of 0.9 or higher, a positive label is provided, otherwise, a negative label is provided. The threshold of the CMap score is based on the similarity criteria used in CMap.

ResimNet과 비교했을 때, Mol2vec와 ECFP의 AUROC 값은 랜덤 예측에 가깝다. 그 결과는 ResimNet이 하부 구조와 약물 반응의 유사성 사이의 관계를 성공적으로 학습하였음을 보여준다. ResimNet은 Mol2vec 벡터와 ECFP 벡터보다 학습 과정 중에 알려지지 않은 새로운 화합물에 대해서도 작동한다. Mol2vec와 ECFP의 저성능도 약물의 유사체 설계를 통해 신약을 개발하는 리간드 기반의 신약 개발 파이프라인이 제한되어 있음을 보여준다.Compared with ResimNet, the AUROC values of Mol2vec and ECFP are close to random prediction. The results show that ResimNet successfully learned the relationship between substructure and similarity of drug response. ResimNet also works for new compounds that are unknown during the learning process than Mol2vec vectors and ECFP vectors. The design of analogs of low-potency drugs of Mol2vec and ECFP shows that the pipeline for developing new drugs based on ligands is limited.

도 8은 본 발명의 일 실시에에 따른 샴 네트워크 모델(ResimNet)과 Mol2vec, ECFP의 정밀도를 비교한 것이다. 8 is a comparison of the precision of a Siamese network model (ResimNet), Mol2vec, and ECFP according to an embodiment of the present invention.

상위 순위의 샘플들은 신약 물질 후보로 활용될 예정이어서 상위 순위의 샘플의 성능을 보여주기 위해 정밀도(Precision)@k%를 계산한다. 이때, Precision@k%는 상위 k개 결과로 정밀도를 계산하는 것이다. Since the top-ranked samples are expected to be used as candidates for new drug substances, precision@k% is calculated to show the performance of the top-ranked samples. In this case, Precision@k% is to calculate the precision with the top k results.

도 8은 가장 높게 예측된 CMap 점수를 가지는 상위 k% 샘플들 사이에서 0.9보다 큰 CMap 점수의 샘들 수의 비율을 언급하는 Precision@k%를 보여준다(k = 1%, 2%, 5%).FIG. 8 shows Precision@k% referring to the ratio of the number of samples of the CMap score greater than 0.9 among the top k% samples with the highest predicted CMap score (k = 1%, 2%, 5%).

ResimNet의 Precision@k% 결과는 모든 테스트 샘플을 정확하게 예측하는 것이 중요하지만, 예측된 유사성 점수가 신약 후보 물질의 발굴하기 위한 신약 개발 파이프라인에서 유용하게 사용되는 것이다. 도 8의 괄호 안에 있는 숫자는 CMap 점수가 상위 k% 샘플들 사이에서 0.9보다 더 큰 샘플의 수와 상위 k%에 해당하는 샘플의 수를 나타낸다. ResimNet's Precision@k% results are important to accurately predict all test samples, but the predicted similarity score is useful in drug development pipelines for discovery of new drug candidates. The numbers in parentheses in FIG. 8 indicate the number of samples with a CMap score greater than 0.9 among the top k% samples and the number of samples corresponding to the top k%.

만일, 무작위로 CMap 점수를 예측한다면, precision@k%는 0.5가 될 것이다. 도 8에 의하면, k가 증가하면 예측 유사도가 낮은 표본이 더 많이 포함되기 때문에 Precision@k%가 감소하는 경향이 있다. 도 8의 precision@1% 열(column)은 시험 데이터세트 내 전체 샘플 중 상위 1% 샘플, 샘플의 상위 1%의 96.6%가 0.9보다 큰 CMap 점수를 가진다. ResimNet은 KK 쌍 98.5%, KU 쌍 94.2%의 정밀도를 달성한다. ResimNet은 KK 쌍과 KU 쌍에 비해 UU 쌍에서 낮은 성능을 보이지만, 학습 데이터량이 많아질수록 다양한 구조적 특징을 학습할 수 있어UU쌍에 대한 정밀도가 높아질 것으로 추정된다.If we randomly predict the CMap score, precision@k% would be 0.5. According to FIG. 8, as k increases, since more samples with low predicted similarity are included, Precision@k% tends to decrease. In the precision@1% column of FIG. 8, the top 1% sample and 96.6% of the top 1% samples in the test dataset have a CMap score greater than 0.9. ResimNet achieves a precision of 98.5% for KK pairs and 94.2% for KU pairs. ResimNet shows lower performance in UU pairs than in KK pairs and KU pairs, but it is estimated that as the amount of training data increases, it is possible to learn various structural features and thus the precision for UU pairs increases.

Mol2vec와 ECFP의 Precision@k%는 구조적 유사성과 약물 반응의 유사성 사이에 중요한 관계가 있음을 보여준다. 그러나 Mol2vec와 ECFP는 서로 다른 약물 구조를 갖고 있지만 비슷한 효과를 가지고 있는 물질 쌍이나 구조가 비슷하지만 다른 효과를 가지는 물질 쌍을 찾을 수 없다. Precision@k% of Mol2vec and ECFP shows that there is an important relationship between structural similarity and similarity of drug response. However, although Mol2vec and ECFP have different drug structures, a pair of substances having similar effects or a pair of substances having similar structures but different effects cannot be found.

ResimNet은 제1 데이터베이스에 포함된 화합물(K)의 90%로 구성된 화합물 쌍의 약물 반응의 유사성을 학습하므로, 이러한 ResimNet이 실제의 신약 개발 파이프라인에 사용된다고 가정하고, 이미 병에 효과가 있는 것으로 알려진 약물과 유사한 신약을 찾는 과정을 시뮬레이션한다. ResimNet learns the similarity of the drug reactions of a pair of compounds consisting of 90% of the compound (K) included in the first database, so it is assumed that this ResimNet is used in the actual drug development pipeline, and is already effective against the disease. It simulates the process of finding new drugs similar to known drugs.

이러한 신약 개발 파이프라인을 시뮬레이션하기 위해 ResimNet은 ResimNet 학습 과정에서 사용된 한 쌍의 화합물과 제2 데이터베이스(예를 들어, ZINC15 데이터베이스)의 새로운 화합물 사이의 약물 반응 유사성을 예측한다. 그 후 예측된 유사성 점수가 높은 쌍이 실제로 약물 반응이 비슷한지 여부를 확인하도록 한다.To simulate this drug development pipeline, ResimNet predicts drug response similarity between a pair of compounds used in the ResimNet learning process and a new compound in a second database (eg, the ZINC15 database). The pair with the high predicted similarity score is then asked to determine whether the drug response is actually similar.

ResimNet을 이용한 제1 데이터베이스(141) 내의 화합물과 ZINC15 데이터베에스 내의 화합물 사이의 약물 반응의 유사성을 예측함으로써, ZINC15 데이터베이스에서 제1 데이터베이스에 저장된 화합물과 유사한 반응을 보이는 신약 후보 물질을 찾을 수 있다. By predicting the similarity of the drug reaction between the compound in the first database 141 and the compound in the ZINC15 database using ResimNet, it is possible to find new drug candidates showing a similar reaction to the compound stored in the first database in the ZINC15 database.

예를 들어, 제1 데이터베이스(141)에 저장된 화합물인 할로페리돌 (Haloperidol)과 셀루메티니브(Selumetinib)에 대한 약물 반응의 유사성을 예측한 결과를 살펴보면 다음과 같다.For example, the results of predicting the similarity of drug reactions to the compounds Haloperidol and selumetinib, which are compounds stored in the first database 141, are as follows.

도 9는 본 발명의 일 실시예에 따른 제1 데이터베이스 내의 할로페리돌과 유사한 약물 반응을 가지는 후보 물질들의 예측 결과를 설명하는 것이다. 9 illustrates prediction results of candidate substances having a drug response similar to haloperidol in a first database according to an embodiment of the present invention.

도 9를 참조하면, 할로페리돌은 도파민 수용체 길항제로서 FDA가 승인한 신경성 또는 정신질환 약품으로서, 할로페리돌과 유사한 약물 반응(예상 유사성 점수 0.9점)이 있을 것으로 예측된 상위 10개의 후보 물질들을 획득할 수 있다. 또한, 도 9에는 두 화합물의 ECFP 벡터의 자카드(Jaccard) 유사성 계수를 보여준다.9, haloperidol is a neurological or mental disorder drug approved by the FDA as a dopamine receptor antagonist, and the top 10 candidate substances predicted to have a drug reaction similar to haloperidol (expected similarity score of 0.9 points) can be obtained. . In addition, Figure 9 shows the Jaccard similarity coefficient of the ECFP vector of the two compounds.

할로페리돌과 상위 10개의 후보 물질을 바이오메디컬 엔티티 검색 툴을 이용해 짝을 이뤄 검색하여 두 화합물이 함께 언급되는 추상화를 확인한다. Haloperidol and the top 10 candidates are paired and searched using a biomedical entity search tool to identify abstractions in which the two compounds are mentioned together.

상위 10개의 후보 물질들 중 6개가 하나 이상의 추상적으로 할리페리돌(Haloperidol)과 함께 언급되었고, 두 화합물이 한 기사의 추상화에 함께 언급되는 것은 두 화합물이 관련되어 있고 실험적으로 상호 비교되고 있음을 시사한다.Six of the top 10 candidates were mentioned abstractly with Haloperidol at least one, and the two compounds mentioned together in an article's abstraction suggests that the two compounds are related and are being compared experimentally. do.

특히, 구조 유사성이 현저하게 낮으면서도 유사한 유전자 발현 프로파일을 사용하는 물질은 ResimNet으로 확인할 수 있다. FDA가 승인한 치매, 우울증, 정신분열증, 불안장애, 정신질환 등의 치료제인 브롬페리돌은 제1 데이터베이스에 포함되지 않았지만, 약물 반응 측면에서 할로페리돌과 유사한 약물 반응을 가지는 후보 물질 중 하나로 브롬페리돌을 추천한다. 할로페리돌과 브롬페리돌은 항정신병 약물로 승인되기 때문에 ResimNet은 할로페리돌과 유사한 화합물을 성공적으로 발견했다고 할 수 있다. 또 클로로할로페리돌, 아미페론, 클로티아핀, 부타클라마놀, 플루시페론, 메파진 등은 도파민 수용체 길항제 또는 파킨슨병 및 정신분열증 치료제다. In particular, a material having a remarkably low structural similarity and using a similar gene expression profile can be identified with ResimNet. Bromperidol, an FDA-approved treatment for dementia, depression, schizophrenia, anxiety disorders, and mental illness, was not included in the first database, but bromperidol is one of the candidates that have a drug reaction similar to haloperidol in terms of drug response I recommend. Because haloperidol and bromperidol are approved as antipsychotic drugs, ResimNet has successfully discovered a compound similar to haloperidol. In addition, chlorohaloperidol, amiferon, clotiapine, butaclamanol, fluciferon, and mepazin are dopamine receptor antagonists or treatments for Parkinson's disease and schizophrenia.

ResimNet을 이용하여 할로페리돌과 유사한 약물 반응을 가지는 후보 물질들의 예측 결과, 1위 약 후보 물질이 신약 개발 파이프라인에 사용될 수 있음을 알 수 있다. As a result of prediction of candidate substances having a drug reaction similar to haloperidol using ResimNet, it can be seen that the No. 1 drug candidate can be used in the new drug development pipeline.

그러나, 후모 무질들 중 가이아파테와 n-(2-히드로시틸)모르폴린은 행동의 메커니즘을 설명하는 기사가 없지만, ResimNet의 예측 결과를 바탕으로두 화합물이 할로페리돌과 유사한 유전자 발현 프로파일을 공유하고 있으며, 잠재적으로 항정신병 약물로 사용될 수 있다고 가정할 수 있다. However, there is no article explaining the mechanism of action of Gaiapate and n-(2-hydrosityl)morpholine among the posterior moieties, but based on ResimNet's prediction results, the two compounds share a gene expression profile similar to that of haloperidol. And it can be assumed that it could potentially be used as an antipsychotic drug.

ResimNet은 물질의 구조적인 유사성이 낮더라도 알려진 약물과 유사한 목표나 효과를 가진 신약 후보 물질을 찾을 수 있으며, 이는 구조적인 특징을 바탕으로 하는 약물 발견 방법으로는 불가능하다.ResimNet can find new drug candidates that have similar targets or effects to known drugs, even if the structural similarity of substances is low, which is impossible with a drug discovery method based on structural characteristics.

이상에서 설명한 본 발명의 실시예에 따른 신약 후보 물질의 발굴 방법은, 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 이러한 기록 매체는 컴퓨터 판독 가능 매체를 포함하며, 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함하며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.The method for discovering a new drug candidate substance according to an embodiment of the present invention described above may be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by a computer. Such recording media include computer-readable media, and computer-readable media may be any available media that can be accessed by a computer, and include both volatile and nonvolatile media, and removable and non-removable media. In addition, computer-readable media includes computer storage media, which are volatile and nonvolatile embodied in any method or technology for storage of information such as computer-readable instructions, data structures, program modules or other data. , Both removable and non-removable media.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustrative purposes only, and those of ordinary skill in the art to which the present invention pertains will be able to understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not limiting. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the claims to be described later rather than the detailed description, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. do.

100: 신약 후보 물질의 발굴 시스템
110: 통신 모듈 120: 메모리
130: 프로세서 140: 데이터베이스
100: New drug candidate discovery system
110: communication module 120: memory
130: processor 140: database

Claims (23)

기계 학습에 기반하여 신약 후보 물질을 발굴하는 신약 후보 물질의 발굴 시스템에 의해 수행되는 신약 후보 물질의 발굴 방법에 있어서,
서로 다른 화합물간의 유전자 발현 정보에 기초한 약물 반응의 유사도 점수를 포함한 화학 유전체 데이터를 포함하는 데이터베이스에 기초하여 제1 물질과 제2 물질에 대한 입력쌍이 입력 되면, 상기 입력쌍에 대해 상기 데이터베이스 내의 유전자 발현 정보와 비교하여 제1 물질과 제2 물질간의 약물 반응의 유사도 점수를 학습하는 샴 네트워크 모델을 제공하는 단계를 포함하되,
상기 샴 네트워크 모델은, 상기 제1 물질과 제2 물질의 가중치와 임베딩 벡터를 각각 산출하고, 상기 임베딩 벡터를 사용하여 상기 제1 물질과 제2 물질에 대한 상기 유사도 점수가 산출되도록 상기 가중치를 갱신하는 것인, 신약 후보 물질의 발굴 방법.
In the discovery method of a new drug candidate material performed by a new drug candidate discovery system for discovering a new drug candidate material based on machine learning,
When an input pair for a first substance and a second substance is input based on a database including chemical genome data including a similarity score of drug reactions based on gene expression information between different compounds, gene expression in the database for the input pair Comprising the step of providing a Siamese network model for learning a similarity score of the drug reaction between the first substance and the second substance by comparing the information,
The Siamese network model calculates a weight and an embedding vector of the first material and the second material, respectively, and updates the weight so that the similarity score for the first material and the second material is calculated using the embedding vector. That is, how to discover new drug candidates.
제 1 항에 있어서,
상기 데이터베이스는, 상기 화합물의 유전자 발현 패턴, 상기 유전자 발현 패턴으로부터 예측된 차별 발현 유전자(differentially expressed gene, DEG)의 발현량을 포함한 약물유도 전사체를 포함하는 연결 지도(Connectivity Map, CMap)를 포함하고,
상기 유사도 점수는 상기 화합물들 사이의CMap 점수이며,
상기 CMap 점수는 서로 다른 두 개의 화합물이 유사한 약물 활동을 공유할수록 점수가 높아지는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 1,
The database includes a connectivity map (CMap) including a drug-derived transcript including the gene expression pattern of the compound and the expression level of a differentially expressed gene (DEG) predicted from the gene expression pattern. and,
The similarity score is a CMap score between the compounds,
The CMap score is that the score increases as two different compounds share similar drug activity, a method of discovering a new drug candidate.
제 1 항에 있어서,
상기 입력쌍은 화합물 구조의 특징을 나타내는 구조 기반 벡터로 표현되어 상기 샴 네트워크 모델의 입력데이터로 제공되는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 1,
The input pair is expressed as a structure-based vector representing the characteristics of the compound structure and provided as input data of the Siamese network model.
제 3 항에 있어서,
상기 구조 기반 벡터는 SMILES(simplified molecular-input line-entry system), InChIKey, InChI(IUPAC International Chemical Identifier), 분자 그래프(molecule graph), Mol2vec, ECFP(Extended Connectivity FingerPrint) 중 어느 하나의 포맷을 사용하는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 3,
The structure-based vector is SMILES (simplified molecular-input line-entry system), InChIKey, InChI (IUPAC International Chemical Identifier), molecular graph (molecule graph), Mol2vec, using any one of ECFP (Extended Connectivity FingerPrint) format. That is, a method of discovering new drug candidates.
제 1 항에 있어서,
상기 샴 네트워크 모델은,
상기 가중치를 공유하는 제1 서브 네트워크와 제2 서브 네트워크로 구성되고,
상기 제1 서브 네트워크와 상기 제2 서브 네트워크는 상기 가중치를 학습 중에 동시에 갱신하는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 1,
The Siamese network model,
It is composed of a first sub-network and a second sub-network that share the weight,
The first sub-network and the second sub-network simultaneously update the weight during learning.
제 5 항에 있어서,
상기 제1 물질에 대한 구조 기반의 벡터 형태로 표현되는 특징 정보가 상기 제1 서브 네트워크의 입력 데이터로 제공되고, 상기 제2 물질에 대한 구조 기반의 벡터 형태로 표현되는 특징 정보가 상기 제2 서브 네트워크의 입력 데이터로 제공되고, 상기 데이터베이스에 기초한 상기 제1 물질과 제2 물질에 대한 유사도 점수를 출력 데이터(tab)로 설정하면,
상기 제1 서브 네트워크와 제2 서브네트워크는 상기 제1 물질과 제2 물질에 대한 가중치와 임베딩 벡터(ca, cb)를 각각 산출한 후 각 임베딩 벡터의 유사도를 계산하여, 상기 계산된 임베딩 벡터의 유사도가 상기 제1 물질과 제2 물질의 약물 반응의 유사도 점수가 되도록 학습하는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 5,
Feature information expressed in a structure-based vector form for the first material is provided as input data of the first sub-network, and feature information expressed in a structure-based vector form for the second material is the second sub Provided as input data of the network, and set the similarity score for the first substance and the second substance based on the database as output data (t ab ),
The first and second subnetworks calculate the weights and embedding vectors (c a , c b ) for the first material and the second material, respectively, and then calculate the similarity of each embedding vector, and the calculated embedding A method of discovering a new drug candidate substance by learning so that the degree of similarity of the vector becomes a similarity score of the drug reaction between the first substance and the second substance.
제 6 항에 있어서,
상기 임베딩 벡터(ca, cb)는 상기 가중치를 포함한 공유 파라미터를 사용하여 하기 수학식 1에 의해 계산되는 것인, 신약 후보 물질의 발굴 방법.
[수학식 1]
Figure pat00011

W1, W2 : 가중치
b1, b2: 바이어스
f() : 요소-바이어스 비선형 활성화 함수
공유 파라미터 :
Figure pat00012
,
Figure pat00013
,
Figure pat00014

h : 은닉층의 차수
e : 출력층의 차수
The method of claim 6,
The embedding vector (c a , c b ) is calculated by Equation 1 below using a shared parameter including the weight.
[Equation 1]
Figure pat00011

W 1 , W 2 : weight
b 1 , b 2 : bias
f(): Element-bias nonlinear activation function
Shared parameters:
Figure pat00012
,
Figure pat00013
,
Figure pat00014

h: the order of the hidden layer
e: the order of the output layer
제 7 항에 있어서,
상기 유사도 점수를 학습하기 위해 상기 임베딩 벡터의 유사도는 하기 수학식 2에 의한 코사인 유사도(Sab)로 산출되는 것인, 신약 후보 물질의 발굴 방법.
[수학식 2]
Figure pat00015
The method of claim 7,
In order to learn the similarity score, the similarity of the embedding vector is calculated as a cosine similarity (S ab ) according to Equation 2 below.
[Equation 2]
Figure pat00015
제 8 항에 있어서,
상기 샴 네트워크 모델은
상기 출력 데이터(tab)와 코사인 유사도(Sab) 를 이용한 손실 함수(J(θ))를 하기 수학식 3에 의해 계산하고, 상기 손실 함수의 결과값이 최소화되도록 학습을 통해 최적의 가중치를 결정하는 것인, 신약 후보 물질의 발굴 방법.
[수학식 3]
Figure pat00016

N : 입력쌍에 대한 학습 데이터 총수
θ : 학습 가능한 가중치 매개변수
The method of claim 8,
The Siamese network model is
The loss function (J(θ)) using the output data (t ab ) and the cosine similarity (S ab ) is calculated by Equation 3 below, and an optimal weight is calculated through learning so that the result value of the loss function is minimized. It is to determine, how to discover new drug candidates.
[Equation 3]
Figure pat00016

N: Total number of training data for the input pair
θ: learnable weight parameter
제 7 항에 있어서,
상기 유사도 점수를 학습하기 위해 상기 임베딩 벡터의 유사도는 하기 수학식 4에 의한 L1 거리(L1 Distance)(
Figure pat00017
)로 산출되는 것인, 신약 후보 물질의 발굴 방법.
[수학식 4]
Figure pat00018
The method of claim 7,
In order to learn the similarity score, the similarity of the embedding vector is L1 distance (L1 Distance) (
Figure pat00017
) That is calculated as, a method of discovering new drug candidates.
[Equation 4]
Figure pat00018
제 7 항에 있어서,
상기 유사도 점수를 학습하기 위해 상기 임베딩 벡터의 유사도는 하기 수학식 5에 의한 L2 거리(L2 Distance)(
Figure pat00019
)로 산출되는 것인, 신약 후보 물질의 발굴 방법.
[수학식 5]
Figure pat00020
The method of claim 7,
In order to learn the similarity score, the similarity of the embedding vector is L2 distance (L2 Distance) (
Figure pat00019
) That is calculated as, a method of discovering new drug candidates.
[Equation 5]
Figure pat00020
제 1 항에 있어서,
상기 임베딩 벡터는 약물 반응 예측, 약물 독성 예측, 약물 재배치 또는 화합물의 작용 예측을 포함한 각종 약물 관련 어플리케이션에 복합적인 벡터로 적용되는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 1,
The embedding vector is applied as a complex vector to various drug-related applications including drug response prediction, drug toxicity prediction, drug rearrangement, or compound action prediction.
기계 학습에 기반하여 신약 후보 물질을 발굴하는 신약 후보 물질의 발굴 시스템에 의해 수행되는 신약 후보 물질의 발굴 방법에 있어서,
a) 서로 다른 화합물간의 유전자 발현 정보에 기초한 약물 반응의 유사도 점수를 포함한 화학 유전체 데이터를 포함하는 제1 데이터베이스에 기초하여 제1 물질과 제2 물질에 대한 입력쌍이 입력 되면, 상기 제1 물질과 제2 물질에 대한 가중치와 임베딩 벡터를 각각 산출한 후 상기 임베딩 벡터를 이용하여 상기 제1 물질과 제2 물질간의 약물 반응의 유사도 점수가 산출되도록 학습하는 샴 네트워크 모델을 제공하는 단계;
b) 상기 유전자 발현 반응에 대해 알려지지 않은 화합물에 대한 특징 정보를 수집 및 관리하는 제2 데이터베이스에서 선택된 제2 물질과 상기 제1 데이터베이스에서 선택된 제1 물질을 입력쌍으로 하여 상기 학습된 샴 네트워크 모델에 입력하고, 상기 학습된 샴 네트워크 모델을 통해 산출된 임베딩 벡터에 기초하여 상기 입력쌍에 대한 유사도 점수를 예측하는 단계; 및
c) 상기 예측된 유사도 점수가 기설정된 임계값 이상인 경우에 상기 제1 물질과 유사 유전자 발현 반응을 가지는 상기 제2 물질을 신약 후보 물질로 선택하는 단계를 포함하는 것인, 신약 후보 물질의 발굴 방법.
In the discovery method of a new drug candidate material performed by a new drug candidate discovery system for discovering a new drug candidate material based on machine learning,
a) When an input pair for a first substance and a second substance is input based on a first database including chemical genome data including a similarity score of drug reactions based on gene expression information between different compounds, the first substance and the second substance 2 Providing a Siamese network model that calculates weights and embedding vectors for substances, and learns to calculate similarity scores of drug reactions between the first substance and the second substance using the embedding vector;
b) In the learned Siamese network model, a second material selected from a second database and a first material selected from the first database are used as input pairs for collecting and managing characteristic information on compounds that are unknown to the gene expression response. Inputting and predicting a similarity score for the input pair based on the embedding vector calculated through the learned Siamese network model; And
c) when the predicted similarity score is greater than or equal to a preset threshold, selecting the second substance having a gene expression reaction similar to that of the first substance as a new drug candidate substance .
제 13 항에 있어서,
상기 제1 데이터베이스에 기초하여 제1 물질과 제2 물질을 선택하여 입력쌍을 구성한 경우, 해당 입력쌍은 상기 샴 네트워크 모델의 학습을 위한 학습 데이터세트가 되고,
상기 제1 데이터베이스에 기초하여 제1 물질을 선택하고, 상기 제2 데이터베이스에 기초하여 제2 물질을 선택하여 입력쌍을 구성한 경우 해당 입력쌍은 신약 후보 물질 선택을 위한 유효성 검증 및 시험 데이터세트가 되고,
상기 제2 데이터베이스에 기초하여 제1 물질과 제2 물질을 선택하여 입력쌍을 구성한 경우, 해당 입력쌍은 약물 반응의 유사도를 측정하기 위한 시험 데이터세트가 되는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 13,
When an input pair is formed by selecting a first substance and a second substance based on the first database, the corresponding input pair becomes a training dataset for learning the Siamese network model,
When a first substance is selected based on the first database and an input pair is formed by selecting a second substance based on the second database, the input pair becomes a validation and test dataset for selecting a new drug candidate substance. ,
When the input pair is formed by selecting the first substance and the second substance based on the second database, the input pair becomes a test dataset for measuring the similarity of drug reactions.
제 13 항에 있어서,
상기 제1 데이터베이스는, 상기 화합물의 유전자 발현 패턴, 상기 유전자 발현 패턴으로부터 예측된 차별 발현 유전자(differentially expressed gene, DEG)의 발현량을 포함한 약물유도 전사체를 포함하는 연결 지도(Connectivity Map, CMap)를 포함하고,
상기 유사도 점수는 상기 화합물들 사이의CMap 점수이며,
상기 CMap 점수는 서로 다른 두 개의 화합물이 유사한 약물 활동을 공유할수록 점수가 높아지는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 13,
The first database is a connection map (Connectivity Map, CMap) including a drug-derived transcript including a gene expression pattern of the compound and an expression level of a differentially expressed gene (DEG) predicted from the gene expression pattern. Including,
The similarity score is a CMap score between the compounds,
The CMap score is that the score increases as two different compounds share similar drug activity, a method of discovering a new drug candidate.
제 13 항에 있어서,
상기 입력쌍은 화합물 구조의 특징을 나타내는 구조 기반 벡터로 표현되어 상기 샴 네트워크 모델의 입력데이터로 제공되는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 13,
The input pair is expressed as a structure-based vector representing the characteristics of the compound structure and provided as input data of the Siamese network model.
제 16 항에 있어서,
상기 구조 기반 벡터는 SMILES(simplified molecular-input line-entry system), InChIKey, InChI(IUPAC International Chemical Identifier), 분자 그래프(molecule graph), Mol2vec, ECFP(Extended Connectivity FingerPrint) 중 어느 하나의 포맷을 사용하는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 16,
The structure-based vector is SMILES (simplified molecular-input line-entry system), InChIKey, InChI (IUPAC International Chemical Identifier), molecular graph (molecule graph), Mol2vec, using any one of ECFP (Extended Connectivity FingerPrint) format. That is, a method of discovering new drug candidates.
제 13항에 있어서,
상기 샴 네트워크 모델은,
상기 가중치를 공유하는 제1 서브 네트워크와 제2 서브 네트워크로 구성되고,
상기 제1 서브 네트워크와 상기 제2 서브 네트워크는 상기 가중치를 학습 중에 동시에 갱신하는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 13,
The Siamese network model,
It is composed of a first sub-network and a second sub-network that share the weight,
The first sub-network and the second sub-network simultaneously update the weight during learning.
제 13 항에 있어서,
상기 a) 단계는,
상기 제1 물질에 대한 구조 기반의 벡터 형태로 표현되는 특징 정보가 상기 제1 서브 네트워크의 입력 데이터로 제공되고, 상기 제2 물질에 대한 구조 기반의 벡터 형태로 표현되는 특징 정보가 상기 제2 서브 네트워크의 입력 데이터로 제공되고, 상기 데이터베이스에 기초한 상기 제1 물질과 제2 물질에 대한 유사도 점수를 출력 데이터(tab)로 설정되면,
상기 제1 서브 네트워크와 제2 서브네트워크는 상기 제1 물질과 제2 물질에 대한 가중치와 임베딩 벡터(ca, cb)를 각각 산출한 후 각 임베딩 벡터의 유사도를 계산하여, 상기 계산된 임베딩 벡터의 유사도를 상기 제1 물질과 제2 물질의 약물 반응의 유사도 점수로 예측하는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 13,
The step a),
Feature information expressed in a structure-based vector form for the first material is provided as input data of the first sub-network, and feature information expressed in a structure-based vector form for the second material is the second sub Provided as input data of the network, and if the similarity score for the first substance and the second substance based on the database is set as output data (t ab ),
The first and second subnetworks calculate the weights and embedding vectors (c a , c b ) for the first material and the second material, respectively, and then calculate the similarity of each embedding vector, and the calculated embedding A method of discovering a new drug candidate by predicting the similarity of the vector as a similarity score of the drug reaction between the first substance and the second substance.
제 19 항에 있어서,
상기 임베딩 벡터(ca, cb)는 상기 가중치를 포함한 공유 파라미터를 사용하여 하기 수학식 1에 의해 계산되는 것인, 신약 후보 물질의 발굴 방법.
[수학식 1]
Figure pat00021

W1, W2 : 가중치
b1, b2: 바이어스
f() : 요소-바이어스 비선형 활성화 함수
공유 파라미터 :
Figure pat00022
,
Figure pat00023
,
Figure pat00024

h : 은닉층의 차수
e : 출력층의 차수
The method of claim 19,
The embedding vector (c a , c b ) is calculated by Equation 1 below using a shared parameter including the weight.
[Equation 1]
Figure pat00021

W 1 , W 2 : weight
b 1 , b 2 : bias
f(): Element-bias nonlinear activation function
Shared parameters:
Figure pat00022
,
Figure pat00023
,
Figure pat00024

h: the order of the hidden layer
e: the order of the output layer
제 13 항에 있어서,
상기 임베딩 벡터는 약물 반응 예측, 약물 독성 예측, 약물 재배치 또는 화합물의 작용 예측을 포함한 각종 약물 관련 어플리케이션에 복합적인 벡터로 적용되는 것인, 신약 후보 물질의 발굴 방법.
The method of claim 13,
The embedding vector is applied as a complex vector to various drug-related applications including drug response prediction, drug toxicity prediction, drug rearrangement, or compound action prediction.
기계 학습에 기반하여 신약 후보 물질을 발굴하기 위한 방법을 수행하기 위한 프로그램이 기록된 메모리; 및
상기 프로그램을 실행하기 위한 프로세서를 포함하며,
상기 프로세서는, 상기 프로그램의 실행에 의해,
서로 다른 화합물간의 유전자 발현 정보에 기초한 약물 반응의 유사도 점수를 포함한 화학 유전체 데이터를 포함하는 제1 데이터베이스에 기초하여 제1 물질과 제2 물질에 대한 입력쌍이 입력 되면, 상기 입력쌍에 대해 상기 데이터베이스 내의 유전자 발현 정보와 비교하여 제1 물질과 제2 물질간의 약물 반응의 유사도 점수를 학습하는 샴 네트워크 모델을 제공하되,
상기 샴 네트워크 모델은, 상기 제1 물질과 제2 물질의 가중치와 임베딩 벡터를 각각 산출하고, 상기 임베딩 벡터를 사용하여 상기 제1 물질과 제2 물질에 대한 상기 유사도 점수가 산출되도록 상기 가중치를 갱신하는 것인, 신약 후보 물질의 발굴 시스템.
A memory in which a program for performing a method for discovering new drug candidates based on machine learning is recorded; And
And a processor for executing the program,
The processor, by executing the program,
When an input pair for a first substance and a second substance is input based on a first database including chemical genome data including a similarity score of a drug reaction based on gene expression information between different compounds, the input pair in the database Provide a Siamese network model for learning the similarity score of the drug reaction between the first substance and the second substance by comparing the gene expression information,
The Siamese network model calculates a weight and an embedding vector of the first material and the second material, respectively, and updates the weight so that the similarity score for the first material and the second material is calculated using the embedding vector. That is, a system for discovering new drug candidates.
제 22 항에 있어서,
상기 프로세서는,
상기 유전자 발현 반응에 대해 알려지지 않은 화합물에 대한 특징 정보를 수집 및 관리하는 제2 데이터베이스에서 선택된 제2 물질과 상기 제1 데이터베이스에서 선택된 제1 물질을 입력쌍으로 하여 상기 학습된 샴 네트워크 모델에 입력하고, 상기 학습된 샴 네트워크 모델을 통해 산출된 임베딩 벡터에 기초하여 상기 입력쌍에 대한 약물 반응의 유사도 점수를 예측하고,
상기 예측된 유사도 점수가 기설정된 임계값 이상인 경우에 상기 제1 물질과 유사 유전자 발현 반응을 가지는 상기 제2 물질을 신약 후보 물질로 선택하는 것인, 신약 후보 물질의 발굴 시스템.
The method of claim 22,
The processor,
A second material selected from a second database that collects and manages characteristic information on a compound unknown to the gene expression response and a first material selected from the first database are input to the learned Siamese network model as an input pair, and , Predicting the similarity score of the drug response for the input pair based on the embedding vector calculated through the learned Siamese network model,
When the predicted similarity score is greater than or equal to a preset threshold value, the second substance having a similar gene expression reaction with the first substance is selected as a new drug candidate substance.
KR1020190053667A 2019-05-08 2019-05-08 Method and system for discovery new drug candidate KR102322884B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190053667A KR102322884B1 (en) 2019-05-08 2019-05-08 Method and system for discovery new drug candidate

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190053667A KR102322884B1 (en) 2019-05-08 2019-05-08 Method and system for discovery new drug candidate

Publications (2)

Publication Number Publication Date
KR20200129367A true KR20200129367A (en) 2020-11-18
KR102322884B1 KR102322884B1 (en) 2021-11-05

Family

ID=73697697

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190053667A KR102322884B1 (en) 2019-05-08 2019-05-08 Method and system for discovery new drug candidate

Country Status (1)

Country Link
KR (1) KR102322884B1 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927818A (en) * 2021-03-15 2021-06-08 杭州师范大学 Method for analyzing action mechanism of pinellia ternate-radix bupleuri medicine for treating gastritis based on integrated pharmacology platform of traditional Chinese medicine
WO2022191459A1 (en) * 2021-03-08 2022-09-15 비엔제이바이오파마 주식회사 Drug design method and device using same
WO2022266395A1 (en) * 2021-06-17 2022-12-22 Northwestern University Adaptive discovery and mixed-variable optimization of next generation synthesizable microelectronic materials
KR20220169886A (en) 2021-06-21 2022-12-28 주식회사 에이아이트릭스 Apparatus and method for discovering hit molecules for new drug development
KR102494470B1 (en) * 2021-11-26 2023-02-06 광주과학기술원 Electronic device for predicting Drug-Drug Interactions and the control method thereof
WO2023158002A1 (en) * 2022-02-21 2023-08-24 주식회사 칼리시 Candidate material discovery system for new drug and computer program implementing candidate material discovery platform for new drug
WO2023191165A1 (en) * 2022-03-30 2023-10-05 메디리타 주식회사 Artificial intelligence-based method for predicting pharmacological effect of new drug candidate material
WO2023191166A1 (en) * 2022-03-29 2023-10-05 주식회사 카이팜 Prediction method and analysis device for drug adverse reactions to target drug

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102467957B1 (en) 2022-02-04 2022-11-17 주식회사 쓰리빌리언 System for discovery new target binding compounds
KR102566459B1 (en) 2022-09-30 2023-08-14 미디어젠(주) A device that is generating information about new drugs candidate substance

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101870963B1 (en) 2016-09-28 2018-06-25 한국기초과학지원연구원 Composition for preventing or treating diabetes and method for screening antidiabetic agents using tetraspanin-2
US20190114390A1 (en) * 2017-10-13 2019-04-18 BioAge Labs, Inc. Drug repurposing based on deep embeddings of gene expression profiles

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101870963B1 (en) 2016-09-28 2018-06-25 한국기초과학지원연구원 Composition for preventing or treating diabetes and method for screening antidiabetic agents using tetraspanin-2
US20190114390A1 (en) * 2017-10-13 2019-04-18 BioAge Labs, Inc. Drug repurposing based on deep embeddings of gene expression profiles

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dong Li 외, International Journal of Genomics, 2017.07.31., Vol.2017, No.9264034, pp.1-7. *
Fujian Tan 외, Molecular BioSystems, 2017.12.01., Issue.12, pp.1126-1138. *
Yoni Donner 외, Molecular Pharmaceutics, 2018.07.12., Vol.15, No.10, pp.4314-4325. *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022191459A1 (en) * 2021-03-08 2022-09-15 비엔제이바이오파마 주식회사 Drug design method and device using same
CN112927818A (en) * 2021-03-15 2021-06-08 杭州师范大学 Method for analyzing action mechanism of pinellia ternate-radix bupleuri medicine for treating gastritis based on integrated pharmacology platform of traditional Chinese medicine
WO2022266395A1 (en) * 2021-06-17 2022-12-22 Northwestern University Adaptive discovery and mixed-variable optimization of next generation synthesizable microelectronic materials
KR20220169886A (en) 2021-06-21 2022-12-28 주식회사 에이아이트릭스 Apparatus and method for discovering hit molecules for new drug development
KR102494470B1 (en) * 2021-11-26 2023-02-06 광주과학기술원 Electronic device for predicting Drug-Drug Interactions and the control method thereof
WO2023096034A1 (en) * 2021-11-26 2023-06-01 광주과학기술원 Electronic device for predicting drug-drug interactions and control method therefor
WO2023158002A1 (en) * 2022-02-21 2023-08-24 주식회사 칼리시 Candidate material discovery system for new drug and computer program implementing candidate material discovery platform for new drug
WO2023191166A1 (en) * 2022-03-29 2023-10-05 주식회사 카이팜 Prediction method and analysis device for drug adverse reactions to target drug
WO2023191165A1 (en) * 2022-03-30 2023-10-05 메디리타 주식회사 Artificial intelligence-based method for predicting pharmacological effect of new drug candidate material

Also Published As

Publication number Publication date
KR102322884B1 (en) 2021-11-05

Similar Documents

Publication Publication Date Title
KR102322884B1 (en) Method and system for discovery new drug candidate
Chen et al. Hidden bias in the DUD-E dataset leads to misleading performance of deep learning in structure-based virtual screening
US11887696B2 (en) Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
Aggarwal et al. False discovery rate estimation in proteomics
CA2894317C (en) Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
Ragoza et al. Protein–ligand scoring with convolutional neural networks
MacIsaac et al. An improved map of conserved regulatory sites for Saccharomyces cerevisiae
Treviño III et al. Robust detection of hierarchical communities from Escherichia coli gene expression data
KR102316989B1 (en) Method and system for discovery new drug candidate
Alvim-Gaston et al. Open Innovation Drug Discovery (OIDD): a potential path to novel therapeutic chemical space
US7324928B2 (en) Method and system for determining phenotype from genotype
Sahu et al. Artificial intelligence (AI) in drugs and pharmaceuticals
Strokach et al. Predicting changes in protein stability caused by mutation using sequence‐and structure‐based methods in a CAGI5 blind challenge
Nardini et al. Learning equations from biological data with limited time samples
Cao et al. Large-scale prediction of human kinase–inhibitor interactions using protein sequences and molecular topological structures
Lin et al. Multi-task generative topographic mapping in virtual screening
Ghulam et al. Disease-pathway association prediction based on random walks with restart and PageRank
del Amo et al. Applying linear and non-linear methods for parallel prediction of volume of distribution and fraction of unbound drug
Ayed et al. Biological representation of chemicals using latent target interaction profile
Pechenick et al. Phenotypic robustness and the assortativity signature of human transcription factor networks
Siahpirani et al. Integrative approaches for inference of genome-scale gene regulatory networks
Yue et al. WIPER: Weighted in‐Path Edge Ranking for biomolecular association networks
Simmons et al. Practical outcomes of applying ensemble machine learning classifiers to High-Throughput Screening (HTS) data analysis and screening
Kundaje et al. A classification-based framework for predicting and analyzing gene regulatory response
Amilpur et al. A sequence-based two-layer predictor for identifying enhancers and their strength through enhanced feature extraction

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant