KR20240040667A - Prediction method of protein-chemical complex structure using large scale conformer generation and 3D-CNN deep transfer learning model - Google Patents

Prediction method of protein-chemical complex structure using large scale conformer generation and 3D-CNN deep transfer learning model Download PDF

Info

Publication number
KR20240040667A
KR20240040667A KR1020230126607A KR20230126607A KR20240040667A KR 20240040667 A KR20240040667 A KR 20240040667A KR 1020230126607 A KR1020230126607 A KR 1020230126607A KR 20230126607 A KR20230126607 A KR 20230126607A KR 20240040667 A KR20240040667 A KR 20240040667A
Authority
KR
South Korea
Prior art keywords
protein
compound
present
binding structure
learning model
Prior art date
Application number
KR1020230126607A
Other languages
Korean (ko)
Inventor
정종선
홍종희
김용환
Original Assignee
(주)신테카바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)신테카바이오 filed Critical (주)신테카바이오
Priority to PCT/KR2023/014451 priority Critical patent/WO2024063581A1/en
Priority to PCT/KR2023/014453 priority patent/WO2024063583A1/en
Publication of KR20240040667A publication Critical patent/KR20240040667A/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Biochemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 전이학습(transfer learning)방법을 이용하여 학습된 3D-CNN모델을 이용하여 단백질-화합물 결합구조들을 분석하여 최적의 단백질-화합물 결합구조(bestpose)를 선별해내는 3차원 합성곱 심층 학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법에 관한 것으로, 본 발명은 (A) 단백질-화합물의 결합 부위를 기 설정된 간격으로 분할된 3차원 공간에 배치하고, 각 분할공간 영역에 포함된 단백질과 화합물의 원자의 밀도를 계산하는 단계와; (B) 각 분할공간의 포함된 단백질과 화합물의 결합정보를 학습레이어로 설정하여, 합성곱 신경망(Convolutional neural network) 인공지능 알고리즘으로 학습하여 3D-CNN 모델을 학습하는 단계;를 포함하여 수행된다. 이와 같은 본 발명에 의하면, 본 발명에서는 전이학습(transfer learning)방법을 이용한 3D-CNN모델을 학습시켜, 각 단백질의 서로 다른 화합물과의 결합 환경이 반영되어 학습되므로, 단백질-화합물 간 결합 분석의 정확도가 향상된 3차원 합성곱 심층 학습 모델을 제공할 수 있는 효과 있다.The present invention is a 3D convolutional deep learning method that selects the optimal protein-compound binding structure (bestpose) by analyzing protein-compound binding structures using a 3D-CNN model learned using a transfer learning method. The present invention relates to a method for predicting the optimal binding structure of a protein-compound using a model. The present invention relates to (A) arranging the binding site of the protein-compound in a three-dimensional space divided at preset intervals, and protein and protein included in each divided space region calculating the density of atoms of the compound; (B) setting the combination information of proteins and compounds included in each partition space as a learning layer and learning it with a convolutional neural network artificial intelligence algorithm to learn a 3D-CNN model. . According to the present invention, a 3D-CNN model is trained using a transfer learning method, and the binding environment of each protein with different compounds is reflected and learned, thereby facilitating protein-compound binding analysis. It has the effect of providing a 3D convolutional deep learning model with improved accuracy.

Description

대용량 컨포머 생성과 삼차원 합성곱 심층 전이학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법 { Prediction method of protein-chemical complex structure using large scale conformer generation and 3D-CNN deep transfer learning model }Prediction method of protein-chemical complex structure using large scale conformer generation and 3D-CNN deep transfer learning model }

본 발명은 주어진 화합물에 대하여 대용량의 단백질-화합물 결합 컨포머를 생성한후 전이학습(transfer learning)을 이용한 3차원 합성곱 심층학습 모델을 통해서 단백질-화합물 최적 결합구조를 추출하는 단백질 특이적 3차원 합성곱 심층 학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법에 관한 것이다.The present invention is a protein-specific 3D method that generates a large amount of protein-compound binding conformers for a given compound and then extracts the optimal protein-compound binding structure through a 3D convolutional deep learning model using transfer learning. This relates to a method for predicting the optimal protein-compound binding structure using a convolutional deep learning model.

효과적인 신약 개발을 위해서 단백질과 화합물의 결합강도(affinity)를 정확하게 예측해야하고 이를 위해서는 정확한 단백질과 화합물 사이의 결합구조(bestpose)를 예측해 내는 것이 필수 적이다.In order to develop effective new drugs, the binding strength (affinity) of proteins and compounds must be accurately predicted, and for this, it is essential to predict the accurate binding structure (bestpose) between proteins and compounds.

이를 위해서 실험적으로는 X선과 핵 자기 공명 분광법을 이용해서 진행해왔지만, 과도한 분석 자원가 시간이 소비되어 대규모 단백질, 화합물 데이터에 대하여는 시도되지 못하고 있다. For this purpose, X-ray and nuclear magnetic resonance spectroscopy have been used experimentally, but it has not been attempted on large-scale protein and compound data due to excessive analysis resource and time consumption.

반면, 컴퓨팅 분석을 이용하여, 가상 화합물 라이브러리를 활용하는 방법은 보다 많은 화합물에 대해서 결합 여부를 간편하게 탐색할 수 있는 유용한 방법이지만, 단백질-화합물 결합에 대해 알려진 구조가부족하고, 컴퓨팅 장비의 성능 한계 때문에 일부 초기의 성공적인 실행 사례에도 불구하고 많은 한계에 직면하고 있다.On the other hand, using a virtual compound library using computational analysis is a useful method that can easily search for binding to more compounds, but there is a lack of known structures for protein-compound binding and limitations in the performance of computing equipment. Therefore, despite some early successful implementation cases, it faces many limitations.

그러나 최근 실험적인 단백질 구조 결정 방법의 상당한 자동화와, computing성능이 향상됨과 동시에 새로운 알고리즘의 개발을 통해 computer를 이용한 docking 방법론이 주목받고 있다. However, computer-based docking methodology has recently been attracting attention through significant automation of experimental protein structure determination methods, improved computing performance, and development of new algorithms.

docking 방법론에서 가장 중요한 것은 단백질과 결합한 화합물에 대해 1) 충분히 많으면서 다양한 컨포머를 확보하는 것(sampling)과; 2) 컨포머들에 대해서 정확하게 계산된 결합 에너지를 통해 랭킹하여 가장 정확하게 결합한 화합물의 구조(pose)를 파악하는 것이다.The most important things in docking methodology are 1) securing a sufficiently large and diverse array of conformers (sampling) for compounds bound to proteins; 2) The conformers are ranked through accurately calculated binding energies to determine the structure (pose) of the most accurately combined compound.

이를 위해서, FRED, GOLD, GLIDE-SP 등(비특허문헌, 2, 3, 4 참조)의 다양한 알고리즘이 개발되었지만 저마다 각자 명확한 장점과 단점을 가지고 있다. For this purpose, various algorithms such as FRED, GOLD, and GLIDE-SP (see non-patent literature, 2, 3, and 4) have been developed, but each has clear advantages and disadvantages.

최근에는 기계학습을 이용해서 미리 선별된 화합물과 단백질의 상호작용에 관련된 특성들을 학습하여 단백질과 결합된 화합물의 구조를 예측해 왔지만 과적합으로 인한 문제 때문에 성능이 제한되어왔고, 이를 해결하기 위하여, 단백질-화합물의 결합부위를 3차원 격자로 표현하여 합성곱(CNN)을 이용한 심층학습모델을 사용하는 알고리듬이 최근에 개발되었다.Recently, machine learning has been used to predict the structure of compounds bound to proteins by learning characteristics related to the interaction between pre-selected compounds and proteins, but performance has been limited due to problems caused by overfitting. To solve this, protein -An algorithm that uses a deep learning model using convolution (CNN) by expressing the binding site of a compound in a three-dimensional grid was recently developed.

대한민국 등록특허 제10-2496208호Republic of Korea Patent No. 10-2496208 대한민국 등록특허 제10-0984735호Republic of Korea Patent No. 10-0984735 대한민국 등록특허 제10-2181058호Republic of Korea Patent No. 10-2181058

Ryan G. Coleman,.et.al Ligand Pose and Orientational Sampling in Molecular Docking. PLOS one 2023 Ryan G. Coleman,.et.al Ligand Pose and Orientational Sampling in Molecular Docking. PLOS one 2023 McGann M.et.al FRED Pose Prediction and Virtual Screening Accuracy. Journal of Chemical Information and Modeling 2011 McGann M.et.al FRED Pose Prediction and Virtual Screening Accuracy. Journal of Chemical Information and Modeling 2011 Verdonk ML.et.al Improved protein-ligand docking using GOLD. Proteins: Structure, Function and Bioinformatics 2003 Verdonk ML.et.al Improved protein-ligand docking using GOLD. Proteins: Structure, Function and Bioinformatics 2003 Friesner RA.et.al Glide:a new approach for rapid, accurate docking and scoring. 1. Method and assessment of docking accuracy J Med Chem 2004 Friesner RA.et.al Glide: a new approach for rapid, accurate docking and scoring. 1. Method and assessment of docking accuracy J Med Chem 2004 M Ragoza.et.al Protein-Ligand Scoring with Convolutional Neural Networks J. Chem. Inf. Model, 2017 M Ragoza.et.al Protein-Ligand Scoring with Convolutional Neural Networks J. Chem. Inf. Model, 2017 Ross, G. A.et.al One Size Does Not Fit All: The Limits of Structure-Based Models in Drug Discovery J. Chem.Theory Comput.2013 Ross, G.A.et.al One Size Does Not Fit All: The Limits of Structure-Based Models in Drug Discovery J. Chem.Theory Comput.2013 https://towardsdatascience.com/a-comprehensive-hands-on-guide-to-transfer-learning-with-real-world-applications-in-deep-learning-212bf3b2f27a https://towardsdatascience.com/a-comprehensive-hands-on-guide-to-transfer-learning-with-real-world-applications-in-deep-learning-212bf3b2f27a (비특허 문헌 8) A McNutt, P Francoeur.et.al GNINA 1.0: Molecular docking with deep learning J. Cheminformatics, 2021(Non-patent document 8) A McNutt, P Francoeur.et.al GNINA 1.0: Molecular docking with deep learning J. Cheminformatics, 2021

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출 된 것으로, 본 발명은 단백질과 화합물의 결합에너지를 정확하게 계산하기 위하여, 단백질과 화합물의 최적의 결합구조(bestpose)를 예측해내는 방법으로, 각 단백질의 서로 다른 화합물과의 대용량의 결합 컨포머를 생성하고 선행 학습된 모델을 이용한 삼차원 합성곱 심층학습 모델을 제공하여 이를 통한 단백질-화합물 최적 결합구조(bestpose)를 선정하는 방법을 제공하고자 하는 것이다.The present invention was created to solve the above problems. The present invention is a method of predicting the optimal binding structure (bestpose) of a protein and a compound in order to accurately calculate the binding energy of the protein and the compound. The purpose is to provide a method of selecting the optimal protein-compound binding structure (bestpose) by generating a large amount of binding conformers with different compounds and providing a three-dimensional convolutional deep learning model using a previously learned model.

상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 본 발명은 (A) 학습데이터로 사용될 단백질-화합물의 결합구조를 생성하기 위한 대용량 컨포머들을 생성하는 단계와; (B) 상기 컨포머들로터 생성된 단백질-화합물의 결합구조를 학습 데이터로 하여 합성곱 심층 전이학습 모델을 학습하는 단계;를 포함하여 수행된다.According to the features of the present invention for achieving the above-described object, the present invention includes the steps of (A) generating large-capacity conformers to generate a protein-compound binding structure to be used as learning data; (B) learning a convolutional deep transfer learning model using the protein-compound binding structure generated from the conformers as learning data.

이때, 상기 컨포머는, 12가지의 서로 다른 형태의 docking 결과에 의해 생성될 수도 있다.At this time, the conformer may be created as a result of 12 different types of docking.

그리고 상기 (A)단계의 화합물은, 학습대상인 단백질-화합물 결합구조의 데이터 부족을 극복하기 위하여, 학습대상인 단백질과 결합관계가 확인되거나 예측된 화합물로부터 생성된 유도체(derivatives)일 수도 있다.In addition, the compounds in step (A) may be derivatives generated from compounds whose binding relationship with the protein to be learned is confirmed or predicted, in order to overcome the lack of data on the protein-compound binding structure that is the target of learning.

또한, 상기 (A) 단계의 화합물은, 상기 유도체들 중 원자간 거리정보에 따라 산출되는 지수값(RMSD, Root Mean Square Deviation)에 따라 선별된 컨포머(conformer)일 수도 있다.In addition, the compound in step (A) may be a conformer selected among the derivatives according to the root mean square deviation (RMSD) calculated according to the interatomic distance information.

그리고 상기 컨포머(conformer)는, 분자 동역학 시뮬레이션(MD simulation)을 통해 MD 궤적(trajectory)의 안정화 구간으로부터 추출될 수도 있다.And the conformer may be extracted from the stabilization section of the MD trajectory through molecular dynamics simulation (MD simulation).

또한, 상기 3D-CNN 모델을 이용하여, (C) 표적단백질과 분석대상 화합물의 결합구조(pose)를 예측하는 단계를 더 포함하여 수행될 수도 있다.In addition, using the 3D-CNN model, (C) predicting the binding structure (pose) of the target protein and the compound to be analyzed may be further included.

위에서 살핀 바와 같은 본 발명에 의한 3차원 합성곱 심층 학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법에서는 다음과 같은 효과를 기대할 수 있다. The following effects can be expected from the protein-compound optimal binding structure prediction method using the 3D convolutional deep learning model according to the present invention as seen above.

즉, 본 발명에서는 대용량의 컨포머 생성하는 방법을 통해서 기존의 docking 알고리즘의 샘플링이 갖는 한계를 극복하여 선별되는 최적 결합구조(bestpose)의 정확도를 증가시킬 수 있는 효과가 있다.In other words, the present invention has the effect of increasing the accuracy of the selected optimal combination structure (bestpose) by overcoming the limitations of sampling in the existing docking algorithm through a method of generating a large amount of conformers.

또한, 본 발명에서는 3차원 합성곱 심층학습 모델생성에 화합물의 유도체 구조를 사용하고, 선행 학습된 모델을 사용하는 전이학습 방법(transfer learning)을 통해서 알려진 삼차원 합성곱 모델에 비해서 정확도를 증가시킬 수 있는 효과가 있다.In addition, in the present invention, the derivative structure of the compound is used to generate a 3D convolutional deep learning model, and accuracy can be increased compared to known 3D convolutional models through transfer learning using a previously learned model. There is an effect.

도 1은 본 발명이 적용되는 인공지능 신약플랫폼(AI-drug platform)의 전체 구성을 도시한 구성도.
도 2는 본 발명이 적용되는 인공지능 신약플랫폼의 클라우드 서비스 구조를 도시한 개념도.
도 3은 본 발명이 적용되는 인공지능 신약플랫폼의 유효물질 발굴과정을 도시한 개념도.
도 4는 본 발명이 적용되는 인공지능 신약플랫폼의 선도물질 발굴과정을 도시한 개념도.
도 5는 본 발명에 의한 스크리닝(Screening) 과정을 도시한 개념도.
도 6은 본 발명의 구체적인 실시예에 의한 3D-CNN 모델의 생성과정을 도시한 개념도.
도 7은 본 발명의 구체적인 실시예에 의한 3D-CNN 모델의 학습 과정을 도시한 개념도.
도 8은 본 발명에 의해 3D-CNN의 성능 비교결과를 도시한 그래프.
도 9는 본 발명에 의한 3D-CNN 모델을 이용한 분석결과를 3차원으로 가시화한 예시도.
1 is a configuration diagram showing the overall configuration of an artificial intelligence drug platform (AI-drug platform) to which the present invention is applied.
Figure 2 is a conceptual diagram showing the cloud service structure of an artificial intelligence new drug platform to which the present invention is applied.
Figure 3 is a conceptual diagram showing the effective substance discovery process of the artificial intelligence new drug platform to which the present invention is applied.
Figure 4 is a conceptual diagram showing the lead material discovery process of the artificial intelligence new drug platform to which the present invention is applied.
Figure 5 is a conceptual diagram showing the screening process according to the present invention.
Figure 6 is a conceptual diagram showing the creation process of a 3D-CNN model according to a specific embodiment of the present invention.
Figure 7 is a conceptual diagram showing the learning process of a 3D-CNN model according to a specific embodiment of the present invention.
Figure 8 is a graph showing the performance comparison results of 3D-CNN according to the present invention.
Figure 9 is an example diagram visualizing the analysis results using the 3D-CNN model according to the present invention in three dimensions.

이하에서는 첨부된 도면을 참조하여 본 발명의 구체적인 실시예에 의한 3차원 합성곱 심층 학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법을 을 살펴보기로 한다.Hereinafter, with reference to the attached drawings, we will look at a method for predicting the protein-compound optimal binding structure using a 3D convolutional deep learning model according to a specific embodiment of the present invention.

설명에 앞서 먼저, 본 발명의 효과, 특징 및 이를 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예에서 명확해진다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Prior to the description, the effects, features, and methods of achieving the present invention will become clear in the examples described in detail below along with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below and may be implemented in various different forms. The present embodiments are merely provided to ensure that the disclosure of the present invention is complete and to provide common knowledge in the technical field to which the present invention pertains. It is provided to fully inform those who have the scope of the invention, and the present invention is only defined by the scope of the claims.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이며, 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In describing the embodiments of the present invention, if it is judged that a detailed description of a known function or configuration may unnecessarily obscure the gist of the present invention, the detailed description will be omitted, and the terms described below will be used in the embodiments of the present invention. These are terms defined in consideration of the function of and may vary depending on the intention or custom of the user or operator. Therefore, the definition should be made based on the contents throughout this specification.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.The combination of each block in the attached block diagram and each step in the flow chart may be performed by computer program instructions (execution engine), and these computer program instructions can be installed on a processor of a general-purpose computer, special-purpose computer, or other programmable data processing equipment. Since it can be mounted, the instructions executed through a processor of a computer or other programmable data processing equipment create a means of performing the functions described in each block of the block diagram or each step of the flow diagram.

그리고, 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성하여 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.In addition, computer program instructions can also be mounted on a computer or other programmable data processing equipment, so a series of operation steps are performed on the computer or other programmable data processing equipment to create a process that is executed by the computer and runs on the computer or other program. Instructions that perform possible data processing equipment may also provide steps for executing functions described in each block of the block diagram and each step of the flow diagram.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능하다.Additionally, each block or each step may represent a module, segment, or portion of code containing one or more executable instructions for executing specified logical functions, and in some alternative embodiments, the blocks or steps referred to in the blocks or steps may represent a portion of code. It is also possible for functions to occur out of order.

그리고 본 발명이 적용되는 인공지능 신약 플랫폼 분야에서는 국문으로 정의되지 않고 영문명칭이 일반명칭으로 사용되는 기술용어가 대다수인 바, 국문으로 병기된 기술용어의 경우, 기술분야에서 일반명칭으로 통용되는 영문명칭의 의미로 해석되어야 한다.In the field of artificial intelligence new drug platforms to which the present invention is applied, most technical terms are not defined in Korean and have English names used as general names. In the case of technical terms written in Korean, the English names are commonly used as general names in the technical field. It must be interpreted according to the meaning of the name.

본 발명에 의한 3차원 합성곱 심층 학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법을 설명하기에 앞서, 본 발명이 적용되는 전체 인공지능 신약 플랫폼에 대하여 설명하기로 한다.Before explaining the method for predicting the protein-compound optimal binding structure using a 3D convolutional deep learning model according to the present invention, the entire artificial intelligence new drug platform to which the present invention is applied will be explained.

도 1은 본 발명이 적용되는 인공지능 신약플랫폼(AI-drug platform)의 전체 구성을 도시한 구성도이고, 도 2는 본 발명이 적용되는 인공지능 신약플랫폼의 클라우드 서비스 구조를 도시한 개념도이며, 도 3은 본 발명이 적용되는 인공지능 신약플랫폼의 유효물질 발굴과정을 도시한 개념도이고, 도 4는 본 발명이 적용되는 인공지능 신약플랫폼의 선도물질 발굴과정을 도시한 개념도이다.Figure 1 is a configuration diagram showing the overall configuration of an artificial intelligence new drug platform (AI-drug platform) to which the present invention is applied, and Figure 2 is a conceptual diagram showing the cloud service structure of an artificial intelligence new drug platform to which the present invention is applied. Figure 3 is a conceptual diagram showing the active material discovery process of the artificial intelligence new drug platform to which the present invention is applied, and Figure 4 is a conceptual diagram showing the lead material discovery process of the artificial intelligence new drug platform to which the present invention is applied.

본 발명의 적용되는 인공지능 신약플랫폼(AI-drug platform)은 기본적으로 전임상 단계에서 신약 후보물질을 발굴하는 전체 과정을 수행하는 플랫폼으로, 출원인은 클라우드를 통해 서비스(STB CLOUD)될 수 있다.The AI-drug platform to which the present invention is applied is basically a platform that performs the entire process of discovering new drug candidates in the preclinical stage, and applicants can be serviced through the cloud (STB CLOUD).

이때, 신약이라 함은 합성신약(Small Molecule) 및 항체신약(Antibody)을 포함하는 것으로 본 발명에 의한 인공지능 신약플랫폼(AI-drug platform)은 이들 모두에 대한 발굴과정을 제공한다.At this time, new drugs include synthetic new drugs (small molecules) and antibody drugs, and the artificial intelligence new drug platform (AI-drug platform) according to the present invention provides a discovery process for all of them.

한편, 이를 위하여, 본 발명에 의한 인공지능 신약플랫폼(AI-drug platform)은 도 1에 도시된 바와 같이, 유효(hit)물질 자동화 발굴 플랫폼, 선도(lead)물질 자동화 발굴 플랫폼 및 약물반응(ADMET, Absorption, Distribution, Metabolism, Excretion & Toxicity) 자동화 분석 플랫폼을 포함하여 구성된다.Meanwhile, for this purpose, the artificial intelligence new drug platform (AI-drug platform) according to the present invention, as shown in FIG. 1, includes a hit material automated discovery platform, a lead material automated discovery platform, and a drug reaction (ADMET) , Absorption, Distribution, Metabolism, Excretion & Toxicity) and an automated analysis platform.

즉, 본 발명에 의한 인공지능 신약플랫폼(AI-drug platform)은 유효물질을 선별하고, 이 중 선도물질을 발굴한 후, 약물반응 분석을 통해 후보물질을 선택하는 신약 개발과정의 전 과정을 수행하도록 구성괸 인공지능 플랫폼이다.In other words, the artificial intelligence new drug platform (AI-drug platform) according to the present invention performs the entire new drug development process of selecting active substances, discovering lead substances among them, and then selecting candidate substances through drug reaction analysis. It is an artificial intelligence platform designed to do this.

도 2에는 본 발명에 의한 인공지능 신약플랫폼(AI-drug platform)의 클라우드 서비스 과정이 도시되어 있는데, 이에 도시된 바와 같이, 본 발명은 유효물질을 발굴하고, 선도물질을 생성하며, ADMET/PK부터 약물유전학 바이오마커에 이르기까지 약물 발견 및 개발 프로세스의 모든 영역을 제공한다.Figure 2 shows the cloud service process of the AI-drug platform according to the present invention. As shown, the present invention discovers effective substances, generates lead substances, and ADMET/PK. It provides all areas of the drug discovery and development process, from pharmacogenetics to biomarkers.

또한, 이들 신약 개발의 각 발굴 단계의 플랫폼을 운영하기 위하여, 본 발명에 의한 인공지능 신약플랫폼(AI-drug platform)은 3개의 개별적인 인공지능 시스템인, 생성형 인공지능 시스템(GPT/BERT), 3차원 구조 인공지능 시스템(3D-CNN), 분자동역학 분석 시스템(Auto-MD simulation)이 적용된다.In addition, in order to operate the platform for each discovery stage of new drug development, the artificial intelligence new drug platform (AI-drug platform) according to the present invention includes three individual artificial intelligence systems: generative artificial intelligence system (GPT/BERT), A three-dimensional structural artificial intelligence system (3D-CNN) and a molecular dynamics analysis system (Auto-MD simulation) are applied.

그리고, 상기 인공지능 신약플랫폼(AI-drug platform)의 상기 인공지능시스템들을 이용하여, 각 유효(hit)물질 자동화 발굴 플랫폼, 선도(lead)물질 자동화 발굴 플랫폼 및 약물반응(ADMET, Absorption, Distribution, Metabolism, Excretion & Toxicity) 자동화 분석 플랫폼을 실행하기 위한 구체적인 방법으로, 단백질-리간드 간 3차원 구조정보를 통한 유효물질 발굴(이하 출원인 조어 기술명인 'DMC-PRE'라 한다), 중심원자 벡터 기반 단백질-리간드 간 도킹구조 분석(이하 출원인 조어 기술명인 'GAP-Dock'이라 한다), 3D-CNN 학습모델을 이용한 단백질-화합물 간 최적화 결합구조 예측(이하 출원인 조어 기술명인 'DMC-SCR'이라 한다), 표적 단백질의 결합 포켓 구조를 통한 유도체 생성(이하 출원인 조어 기술명인 'LEAD-GEN'이라 한다), 분자동역학 시뮬레이션 데이터를 통한 단백질-화합물 상호 결합 안정성 분석(이하 출원인 조어 기술명인 'DMC-MD'라 한다) 및 단백질-화합물 간 3차원 상호작용 데이터를 이용하여 학습된 생성된 인공지능 모델(이하 출원인 조어 기술명인 '3bmGPT'라 한다)이 적용된다.And, using the artificial intelligence systems of the AI-drug platform, each hit material automated discovery platform, lead material automated discovery platform, and drug reaction (ADMET, Absorption, Distribution, Metabolism, Excretion & Toxicity) as a specific method to run an automated analysis platform, discovering effective substances through 3D structural information between proteins and ligands (hereinafter referred to as 'DMC-PRE', the technical name coined by the applicant), central atom vector-based protein - Analysis of docking structure between ligands (hereinafter referred to as 'GAP-Dock', the technical name of the applicant), prediction of optimized binding structure between proteins and compounds using a 3D-CNN learning model (hereinafter referred to as 'DMC-SCR', the technical name of the applicant) , generation of derivatives through the binding pocket structure of the target protein (hereinafter referred to as 'LEAD-GEN', the technical name of the applicant), analysis of protein-compound interaction stability through molecular dynamics simulation data (hereinafter referred to as 'DMC-MD', the technical name of the applicant) ) and the generated artificial intelligence model learned using 3D interaction data between proteins and compounds (hereinafter referred to as '3bmGPT', the technical name coined by the applicant) is applied.

여기서, 상기 DMC-PRE 및 GAP-Dock은 상기 유효(hit)물질 자동화 발굴 플랫폼을 통해 유효물질을 발굴함에 선행적용되는 기술이고, DMC-SCR은 분자동역학 분석 시스템(Auto-MD simulation)에 적용되어, 상기 유효(hit)물질 자동화 발굴 플랫폼을 통해 유효물질을 발굴함에 후행적용되는 기술이며, LEAD-GEN은 선도(lead)물질 자동화 발굴 플랫폼을 통해 선도물질을 발굴함에 적용되는 기술이다.Here, the DMC-PRE and GAP-Dock are technologies applied in advance to discover active substances through the automated discovery platform for hit substances, and DMC-SCR is applied to the molecular dynamics analysis system (Auto-MD simulation). , It is a technology applied later to discover active substances through the hit material automated discovery platform, and LEAD-GEN is a technology applied to discover lead materials through the lead material automated discovery platform.

그리고 DMC-MD는 상기 분자동역학 분석 시스템(Auto-MD simulation)에 적용되어, 상기 유효(hit)물질 자동화 발굴 플랫폼, 선도(lead)물질 자동화 발굴 플랫폼 및 약물반응(ADMET, Absorption, Distribution, Metabolism, Excretion & Toxicity) 자동화 분석 플랫폼에서 도출된 결과물의 결합 안정성을 검증하는 기술이고, 3bmGPT는 생성형 인공지능 시스템(GPT/BERT)에 적용되어, 상기 유효(hit)물질 자동화 발굴 플랫폼을 통해 유효물질을 산출함에 있어 분석대상물질을 선별하는 기술이다.And DMC-MD is applied to the molecular dynamics analysis system (Auto-MD simulation), the hit material automated discovery platform, the lead material automated discovery platform, and drug reaction (ADMET, Absorption, Distribution, Metabolism, Excretion & Toxicity) is a technology that verifies the combined stability of results derived from an automated analysis platform, and 3bmGPT is applied to a generative artificial intelligence system (GPT/BERT) to identify active substances through the automated discovery platform for hit substances. It is a technology that selects the analyte target for calculation.

구체적으로, 본 발명에 의한 인공지능 신약플랫폼(AI-drug platform)의 유효물질 발굴과정을 살피면, 도 3에 도시된 바와 같이, 상기 3bmGPT를 통해 선별한 분석대상 물질을 상기 DMC-PRE 및 GAP-Dock을 적용하여 선행 스크리닝하고, 상기 DMC-SCR을 적용하여 심층 스크리닝을 한후, DMC-MD를 적용하여 결합 안정성을 검증하여 유효물질을 도출한다.Specifically, looking at the process of discovering effective substances of the artificial intelligence new drug platform (AI-drug platform) according to the present invention, as shown in Figure 3, the analyte substances selected through the 3bmGPT are classified into the DMC-PRE and GAP- Dock is applied for preliminary screening, DMC-SCR is applied for in-depth screening, and DMC-MD is applied to verify binding stability to derive effective substances.

그리고 본 발명에 의한 인공지능 신약플랫폼(AI-drug platform)의 선도물질 발굴과정을 살피면, 도 4에 도시된 바와 같이, 상기 LEAD-GEN을 적용하여 다양한 유도체를 생성한 후, DMC-MD를 적용하여 결합 안정성을 검증하여 선도물질을 도출한다.And looking at the lead material discovery process of the AI-drug platform according to the present invention, as shown in FIG. 4, various derivatives are generated by applying the LEAD-GEN, and then DMC-MD is applied. By verifying the binding stability, the lead material is derived.

본 발명은 전술한 바와 같은, 인공지능 신약 플랫폼에서 스크리닝과정에서 단백질-화합물 간 최적화 결합구조(Best pose)를 예측하기 위한 3D-CNN 학습모델에 관한 것으로, 기본적으로는 선도물질 발굴과정에 적용되나, 표적단백질에 대한 신규 화합물의 결합구조 도출을 요구하는 다양한 과정에 적용될 수 있는 바, 본 발명의 적용 대상이 특정 과정에 한정되는 것은 아니다.As described above, the present invention relates to a 3D-CNN learning model for predicting the optimal binding structure (best pose) between proteins and compounds during the screening process on an artificial intelligence new drug platform. It is basically applied to the lead material discovery process. , it can be applied to a variety of processes requiring the derivation of a binding structure of a new compound to a target protein, so the subject of application of the present invention is not limited to a specific process.

본 발명의 구체적인 수행 방법을 요약하면, 도 5에 도시된 바와 같이, 아래와 같은 수행단계들을 통해 실시된다.To summarize the specific implementation method of the present invention, as shown in FIG. 5, it is carried out through the following performance steps.

(A) 단백질의 화합물 결합부위와 화합물의 전하(charge)를 계산하고 결합부위에 적합한 최적의 서로 다른 화합물 모양을 12가지를 예측해내고 이때 예측된 결합구조 내의 화합물의 모양을 포즈(pose)라고 한다. (A) Calculate the compound binding site of the protein and the charge of the compound and predict 12 different optimal compound shapes suitable for the binding site. At this time, the shape of the compound within the predicted binding structure is called the pose. .

그리고, (B) 생성된 각각의 화합물 pose에 대해서 회전, 병진운동(RTE: rotation, translation & energy minimize)을 통해서 안정화된 2000개의 컨포머가 형성하여 전체 24000개의 컨포머를 생성한다. And, (B) for each compound pose created, 2000 stabilized conformers are formed through rotation, translation & energy minimization (RTE), creating a total of 24000 conformers.

다음으로, (C) 위와 같이 생성된 도합 24000개의 컨포머들에 대해서 만들어진 3차원 합성곱 심층학습모델을 통해서 최적결합구조를 예측해낸다.Next, (C) predict the optimal combination structure through a 3D convolutional deep learning model created for a total of 24,000 conformers generated as above.

상기 (C) 단계에서 사용되는 3D-CNN 학습 모델의 생성 방법은 다음 과 같다.The method of generating the 3D-CNN learning model used in step (C) above is as follows.

a. 학습 모델에 사용되는 화합물은 학습대상인 단백질과 결합관계가 확인되거나 예측된 화합물로부터 생성된 유도체(derivatives) 또는 그 유도체들 중 원자간 거리 정보에 따라 산출되는 지수값(RMSD, Root Mean Square Deviation)에 따라 선별된 컨포머일 수도 있다. a. Compounds used in the learning model are derivatives generated from compounds with confirmed or predicted binding relationships with the protein being learned, or the root mean square deviation (RMSD) value calculated according to the distance information between atoms among the derivatives. It may be a conformer selected accordingly.

b. 생성된 유도체들과 그 컨포머들을 이용해서 3차원 합성곱 심층학습을 위한 입력데이터를 생성한다. (비특허 문헌 5 참조) b. Input data for 3D convolutional deep learning is generated using the generated derivatives and their conformers. (Refer to Non-Patent Document 5)

c. 선행학습된 3차원 합성곱 모델의 가중치(weight)를 사용한 전이학습(transfer learning, 비특허 문헌 7 참조) 방법을 통해서 단백질-화합물 최적 결합구조에 선별될 3차원 합성곱 심층학습 모델을 생성한다. c. A 3D convolution deep learning model to be selected for the optimal protein-compound binding structure is created through a transfer learning (see Non-Patent Document 7) method using the weights of the previously learned 3D convolution model.

이하에서는, 본 발명에 의한 대용량 컨포머 생성과 삼차원 합성곱 심층 전이학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법의 구체적인 실시예를 상세히 설명하기로 한다.Hereinafter, specific examples of the method for predicting the protein-compound optimal binding structure using large-capacity conformer generation and a three-dimensional convolutional deep transfer learning model according to the present invention will be described in detail.

도 5는 본 발명에 의한 스크리닝(Screening) 과정을 도시한 개념도이고, 도 6은 본 발명의 구체적인 실시예에 의한 3D-CNN 모델의 생성과정을 도시한 개념도이며, 도 7은 본 발명의 구체적인 실시예에 의한 3D-CNN 모델의 학습 과정을 도시한 개념도이고, 도 8은 본 발명에 의해 3D-CNN의 성능 비교결과를 도시한 그래프이며, 도 9는 본 발명에 의한 3D-CNN 모델을 이용한 분석결과를 3차원으로 가시화한 예시도이다.Figure 5 is a conceptual diagram showing the screening process according to the present invention, Figure 6 is a conceptual diagram showing the creation process of a 3D-CNN model according to a specific embodiment of the present invention, and Figure 7 is a specific implementation of the present invention. It is a conceptual diagram showing the learning process of a 3D-CNN model according to an example, Figure 8 is a graph showing the performance comparison results of 3D-CNN according to the present invention, and Figure 9 is an analysis using the 3D-CNN model according to the present invention. This is an example of the results visualized in 3D.

본 발명의 상세한 설명에 앞서, 본 발명의 기술적 특징을 요약하면, 본 발명은 기존의 삼차원 합성곱 모델 생성 방법을 바탕으로하되, 1) 대용량의 컨포머를 생성하는 방법으로 선별되는 결합구조의 정확도를 높였고 2) 기존에 선행 학습된 모델을 사용한 전이학습(transfer learning)방법을 사용하였고 3) 모델 생성에 사용되는 학습데이터로 결합관계가 검증된 화합물로부터 생성된 유도체(derivatives)를 사용하는 방법으로 기존에 알려진 3차원 합성곱 심층학습모델에 비해 증가된 성능을 얻을 수 있다.Prior to a detailed description of the present invention, to summarize the technical features of the present invention, the present invention is based on an existing three-dimensional convolution model generation method, and 1) the accuracy of the combined structure selected by the method of generating a large amount of conformers 2) a transfer learning method using an existing previously learned model was used, and 3) a method of using derivatives generated from compounds whose binding relationships were verified as learning data used to create the model. Increased performance can be achieved compared to previously known 3D convolutional deep learning models.

즉, 본 발명에 의한 3차원 합성곱 심층 전이 학습 모델은 기본적으로 결합구조가 확인된 단백질-화합물 결합구조로부터 3D-CNN 모델이 학습되는데, 학습데이터인 3차원 결합구조가 확인된 단백질-화합물의 양(PDB bind database 등)이, 1) 3D-CNN의 정확도를 충분히 확보할 만큼 많지 않다는 점을 개선하기 위하여, 각각의 유효물질로부터 LEAD-GEN을 이용하여, 다수의 유도체들을 생성하여, 단백질과 유도체의 결합구조를 3D-CNN 모델의 학습데이터로 적용했고 2) 대용량의 단백질-화합물 구조 데이터(PDB bind database 등)으로 선행 학습된 모델을 통한 전이 학습방법을 사용하여 학습을 진행했다.In other words, the 3D convolutional deep transfer learning model according to the present invention is basically a 3D-CNN model learned from the protein-compound binding structure for which the binding structure has been confirmed, and the learning data of the protein-compound for which the 3D binding structure has been confirmed In order to improve the fact that 1) the amount (PDB bind database, etc.) is not large enough to sufficiently secure the accuracy of 3D-CNN, a number of derivatives are generated using LEAD-GEN from each effective substance, and proteins and The binding structure of the derivative was applied as learning data for the 3D-CNN model, and 2) learning was conducted using a transfer learning method using a model previously learned with a large amount of protein-compound structure data (PDB bind database, etc.).

이하에서는 상기 3D-CNN 모델의 학습 방법을 상세히 설명하기로 한다.Below, the learning method of the 3D-CNN model will be described in detail.

본 발명에 의한 3D-CNN 모델은, 도 6에 도시된 바와 같이, (A) 단백질-화합물의 결합 부위를 기 설정된 간격으로 분할된 3차원 공간에 배치하고, 각 분할공간 영역에 포함된 단백질과 화합물의 원자의 밀도를 계산하는 단계와; (B) 각 분할공간의 포함된 단백질과 화합물의 결합정보를 학습레이어로 설정하여, 합성곱 신경망(Convolutional neural network) 인공지능 알고리즘으로 학습하여 3D-CNN 모델을 학습하는 단계;를 포함하여 학습된다. 이때 모델 학습이 시작되는 초기 가중치(weight)로 선행 학습된 모델의 가중치(weight)를 사용한다.As shown in Figure 6, the 3D-CNN model according to the present invention places (A) the protein-compound binding site in a three-dimensional space divided at preset intervals, and the protein and calculating the density of atoms of the compound; (B) Setting the combination information of proteins and compounds included in each partition space as a learning layer and learning it with a convolutional neural network artificial intelligence algorithm to learn a 3D-CNN model; learning includes; . At this time, the weight of the previously trained model is used as the initial weight at which model learning begins.

그리고 상기 3D-CNN 모델의 학습에 사용되는 학습데이터는, 단백질-화합물의 결합 부위를 기 설정된 간격으로 분할된 3차원 공간에 배치하고, 각 분할공간 영역에 포함된 단백질과 화합물의 원자의 밀도를 계산하여 생성된 원자밀도 데이터(Atom type Density file)가 사용된다.In addition, the learning data used for learning the 3D-CNN model places the protein-compound binding sites in a three-dimensional space divided at preset intervals, and determines the density of atoms of proteins and compounds contained in each divided space region. Atom density data (Atom type Density file) generated through calculation is used.

한편, 3D-CNN 모델의 학습에 사용되는 단백질-화합물 결합구조의 화합물은 기본적으로 해당 단백질과 결합구조가 확인된 화합물을 공개 DB로부터 제공받은 화합물 또는 인공지능 플랫폼의 스크리닝 과정을 통해 도출된 유효물질 등이 사용될 수 있다. 그러나 전술한 바와 같이, 이와 같이 결합구조가 확인되거나 예측된 화합물은 그 양이 적어 정확한 예측성을 갖는 3D-CNN 모델을 생성하기 어려운 문제점이 있다.Meanwhile, compounds with protein-compound binding structures used in learning 3D-CNN models are basically compounds with confirmed binding structures with the corresponding protein provided from public databases or effective substances derived through the screening process of an artificial intelligence platform. etc. may be used. However, as described above, there is a problem in that it is difficult to create a 3D-CNN model with accurate prediction because the amount of compounds whose binding structures have been confirmed or predicted is small.

이에 본 발명에 의한 3D-CNN 모델은 학습대상인 단백질과 결합관계가 확인되거나 예측된 화합물(이하 '기본 화합물'이라 한다)로부터 생성된 유도체(derivatives)를 해당 단백질과 결합시켜 학습데이터로 사용한다.Accordingly, the 3D-CNN model according to the present invention combines derivatives generated from compounds (hereinafter referred to as 'basic compounds') with a confirmed or predicted binding relationship with the protein that is to be learned, and uses them as learning data.

상기 유도체는 기본적으로 기본 화합물에서 특정부위의 원자그룹을 다른 원자그룹으로 치환하여 생성되는 것으로, 이하에서는, 기본 화합물로부터 유도체를 생성하는 과정에 대하여 상세히 설명하기로 한다.The derivative is basically produced by substituting an atomic group at a specific site in a basic compound with another atomic group. Hereinafter, the process of producing a derivative from a basic compound will be described in detail.

상기 유도체의 생성은, 상기 기본 화합물의 치환된 대상 원자그룹을 선정하고, 단백질 내에 생성될 포켓의 공간 면적으로 산출한 후, 해당 공간 면적에 적합한 원자그룹을 선택하여 기본화합물의 원자그룹을 치환하여 유도체를 생성한다.The generation of the derivative involves selecting the target atom group to be replaced in the basic compound, calculating the spatial area of the pocket to be created in the protein, then selecting an atom group appropriate for the spatial area and substituting the atomic group in the basic compound. Creates a derivative.

본 발명에서는, 기본 화합물로부터 제거되어 치환될 원자그룹을 원자편 (fragment), 원자편이 제거된 기본 화합물의 나머지 부분을 스케폴드(scaffold), 원자편과 스케폴드를 연결하는 링커의 원자를 앵커(anchor), 원자편을 대체하여 결합될 새로운 원자그룹을 R-group이라 한다.In the present invention, the atom group to be replaced by being removed from the basic compound is called an atom fragment, the remaining part of the basic compound from which the atom fragment has been removed is called a scaffold, and the atom of the linker connecting the atom fragment and the scaffold is called an anchor ( anchor), the new atomic group to be bonded by replacing the atomic piece is called R-group.

이룰 구체적으로 설명하면, 먼저, 상기 기본 화합물의 결합구조에서 앵커(Anchor atom)를 선정하여 원자편을 선정해야 하는데, 이를 위해, 상기 기본화합물이 단백질과 결합하는 모든 단일 결합들에 대하여, 결합 단부의 원자그룹을 원자편으로 추출하고, 이때, 결합 단부의 원자가 앵커(anchor)가 된다. To explain this in detail, first, in the binding structure of the basic compound, an anchor atom must be selected to select an atomic piece. For this, for all single bonds where the basic compound binds to a protein, the bond end The atomic groups are extracted into atomic pieces, and at this time, the atoms at the bond ends become anchors.

이후, 생성된 원자편의 구성 원자수에 따라 적정범위 내에 원자수를 갖는 원자편 만을 선별한다. Afterwards, only the atomic fragments having the number of atoms within an appropriate range are selected according to the number of atoms in the generated atomic fragments.

그리고 선별된 각 원자편(fragment)들에 대하여, 상호작용 관련도 (Interaction Efficiency)를 산출하여, 결합 상호작용에 관련도가 기 설정된 값 이하인 원자편 만을 선정하다.Then, for each selected atomic fragment, the interaction efficiency is calculated, and only the atomic fragments whose relevance for bonding interaction is less than a preset value are selected.

이때, 상기 상호작용 관련도(Interaction Efficiency)는, 상기 원자편(fragment)을 구성하는 각 원자들의 결합에너지의 평균값으로 산출된다.At this time, the interaction efficiency is calculated as the average value of the bond energy of each atom constituting the atomic fragment.

다음으로, 표적 단백질 내의 결합포켓 내부의 포켓 공간을 산출하는데, 상기 포켓 공간의 크기는 아래와 같은 방법에 의해 산출된다.Next, the pocket space inside the binding pocket in the target protein is calculated, and the size of the pocket space is calculated by the following method.

구체적으로, 상기 포켓 공간의 산출은 상기 단백질을 상기 화합물의 결합 위치를 중심으로 기 설정된 크기의 영역을 추출하여 실린더 필터(sylinder)를 생성한다.Specifically, the calculation of the pocket space creates a cylinder filter (sylinder) by extracting a region of a preset size centered on the binding site of the protein and the compound.

이후, 상기 실린더 필터(sylinder)에 등간격으로 배열된 표시지점(dot)들을 설정하고, 상기 표시지점(dot)들을 단백질 원자와의 상호작용(interaction) 에너지에 의해 구분한다.Afterwards, dots arranged at equal intervals are set on the cylinder filter (cylinder), and the dots are distinguished by interaction energy with protein atoms.

그리고, 상기 스케폴드(scaffold)의 앵커(anchor)부위를 실린더 필터(sylinder)의 앵커(anchor)부위에 접근시켜 배치하고, 상기 표시지점(dot) 중 상호작용(interaction) 에너지가 기 설정된 값 이상인 영역을 실린더 필터(sylinder)에서 제외시킨다.Then, the anchor part of the scaffold is placed close to the anchor part of the cylinder filter, and the interaction energy among the dots is greater than or equal to a preset value. Excludes an area from the cylinder filter.

그리고 상기 표시지점(dot)을 공간 단위로 묶어 클러스팅(GMM clustering)하고, 클러스팅된 영역들을 상기 스케폴드(scaffold) 앵커(anchor)와 가깝게 인접하고, 크기가 큰 순서로 우선순위를 판단하여, 일부 크러스팅 영역만을 도출하여 표적 단백질 내의 포켓 공간(target volume)으로 도출하여 그 크기를 산출한다.Then, the dots are grouped into spatial units and clustered (GMM clustering), the clustered areas are closely adjacent to the scaffold anchor, and the priority is determined in order of size. , only a partial crusting region is derived and the pocket space (target volume) within the target protein is derived to calculate its size.

이후, 상기 포켓 공간의 크기에 들어갈 수 있는 크기(원자 구성에 의해 판단)를 갖는 R-group을 선택하고, 선택된 R-group을 스케폴드(scaffold)의 앵커(anchor)에 결합하여, 유도체(derivative)를 생성한다.Afterwards, an R-group having a size (determined by atomic composition) that can fit into the size of the pocket space is selected, and the selected R-group is bound to the anchor of the scaffold to form a derivative. ) is created.

이때, R-group은 기 구축된 원자그룹들의 데이터베이스에서 선택될 수 있다.At this time, the R-group can be selected from a database of existing atomic groups.

한편, 이와 같이 생성된 유도체는, 상기 스케폴드(scaffold)의 앵커(anchor)와 결합되는 R-group의 결합 위치 및 결합 형태(각도)를 변형시켜 복수의 추가적인 유도체를 형성할 수 있다.Meanwhile, the derivative produced in this way can form a plurality of additional derivatives by modifying the bonding position and bonding form (angle) of the R-group bonded to the anchor of the scaffold.

그리고 이와 같이 생성된 유도체들은 필터링을 거쳐 3D-CNN 모델의 학습에 사용될 수 있는데, 구체적으로, 상기 결합단과 상기 R-group의 결합 형태를 실존 물질 데이터베이스와 대비하여, 해당 결합형태를 갖는 실존 물질이 있는지 여부로 필터링할 수도 있고, 상기 유도체의 R-group의 결합 형태 별로 상기 실린더 필터(sylinder)에 결합시킨 후, 포켓내에 생성되는 충돌(clash)량에 충돌량이 큰 유도체를 제외시키는 방법으로 필터링을 수행할 수도 있다.And the derivatives generated in this way can be filtered and used for learning a 3D-CNN model. Specifically, by comparing the bond form of the binding group and the R-group with the real substance database, the real substance with the corresponding bond form is identified. Filtering can be done based on whether the derivative is present or not, and the derivatives are bound to the cylinder filter (cylinder) according to the bond type of the R-group, and then filtered by excluding derivatives with a large collision amount compared to the amount of collision generated in the pocket. It can also be done.

한편, 이와 같이 필터링된 유도체들은 상기 유도체들 중 원자간 거리정보에 따라 산출되는 지수값(RMSD, Root Mean Square Deviation)에 따라 선별된 컨포머(conformer)들로 선별될 수 있는데, 구체적으로, 분자 동역학 시뮬레이션(MD simulation)을 통해 MD 궤적(trajectory)의 안정화 구간에 속한 유도체들을 선별하여 구성될 수 있다.Meanwhile, the derivatives filtered in this way can be selected as conformers selected according to the root mean square deviation (RMSD) calculated according to the distance information between atoms among the derivatives. Specifically, the molecular It can be constructed by selecting derivatives belonging to the stabilization section of the MD trajectory through MD simulation.

이와 같이, 다양한 컨포머를 생성한 후, 도 7에 도시된 바와 같이, 삼차원 합성곱 심층학습 모델을 사용하여 본 발명에 의한 3D-CNN 결과 단백질-화합물간 최적의 결합구조를 선별해낼 수 있었으며, 이와 같은 분석 결과는 3차원 구조내에서 가시화하는 방법으로 설명이 가능해진다.In this way, after generating various conformers, it was possible to select the optimal protein-compound binding structure as a result of the 3D-CNN according to the present invention using a three-dimensional convolutional deep learning model, as shown in Figure 7. Such analysis results can be explained by visualizing them within a three-dimensional structure.

본 발명의 실시예의 경우, 유도체 구조들을 이용해서 학습을 진행할 때 대규모 단백질-화합물 결합구조들을 이용해서 선행적으로 삼차원 합성곱 모델로 학습된 모델의 가중치(weight)를 학습진행시 초기 가중치(weight)로 사용하는 전이 학습 방법(transfer learing)이 적용되었다.In the case of an embodiment of the present invention, when learning using derivative structures, the weight of the model previously learned as a three-dimensional convolution model using large-scale protein-compound binding structures is set to the initial weight during learning. The transfer learning method using was applied.

이와 같은, 본 발명(DMC-SCR)에 의한 단백질-화합물 최적 결합구조 예측의 성능을 3차원 합성곱 심층학습 모델을 사용한 알려진 docking 알고리즘(비특허 문헌 8 참조)과 AUC수치를 통해 비교해본 결과, 도 8에 도시된 바와 같이, 일정 부분 향상된 효과를 보이는 것을 확인할 수 있다,As a result of comparing the performance of predicting the protein-compound optimal binding structure by the present invention (DMC-SCR) with a known docking algorithm (see non-patent document 8) using a 3D convolutional deep learning model through AUC values, As shown in Figure 8, it can be seen that the effect is improved to a certain extent.

한편, 본 발명에 의한 3D-CNN 모델의 분석 결과는, 도 9에 도시된 바와 같이, 3차원 구조로 가시화하여 제공될 수 있다.Meanwhile, the analysis results of the 3D-CNN model according to the present invention can be provided by visualizing them in a three-dimensional structure, as shown in FIG. 9.

즉, 특정 화합물(A)을 단백질에 결합시킨 후 삼차원 합성곱 모델을 적용해 3D-CNNscore를 계산한 결과를 화합물 각부분별로 가시화 점수(visualization score)(화합물 부위별로 3D-CNNscore에 기여하는 정도)를 계산하였고, 이 결과 Adenine 잔기의 위치(붉은색 원으로 표시)가 구조의 안정성에 중요한 역할을 함을 확인할 수 있었다.In other words, after binding a specific compound (A) to a protein, the result of calculating the 3D-CNNscore by applying a three-dimensional convolution model is a visualization score for each part of the compound (the degree to which each part of the compound contributes to the 3D-CNNscore). was calculated, and as a result, it was confirmed that the position of the adenine residue (indicated by a red circle) plays an important role in the stability of the structure.

본 발명의 권리는 위에서 설명된 실시예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.The rights of the present invention are not limited to the embodiments described above but are defined by the claims, and those skilled in the art can make various changes and modifications within the scope of the claims. This is self-evident.

본 발명은 유전자 특이성이 반영되어 학습된 3차원 합성곱 심층학습 모델을 이용하여 단백질-화합물 결합구조들을 분석하여 최적의 단백질-화합물 결합구조(bestpose)를 선별해내는 3차원 합성곱 심층 학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법에 관한 것으로, 본 발명에 의하면, 단백질의 특이성을 반영하여 3D-CNN 모델을 학습시켜, 각 단백질의 서로 다른 화합물과의 결합 환경이 반영되어 학습되므로, 단백질-화합물 간 결합 분석의 정확도가 향상된 3차원 합성곱 심층 학습 모델을 제공할 수 있는 효과 있다.The present invention is a 3D convolutional deep learning model that selects the optimal protein-compound binding structure (bestpose) by analyzing protein-compound binding structures using a 3D convolutional deep learning model learned by reflecting gene specificity. It relates to a method for predicting the optimal protein-compound binding structure using the present invention. According to the present invention, a 3D-CNN model is learned by reflecting the specificity of the protein, and the binding environment of each protein with different compounds is reflected and learned, so the protein-compound binding environment is reflected. It has the effect of providing a 3D convolutional deep learning model with improved accuracy in the analysis of bonds between compounds.

Claims (6)

(A) 학습데이터로 사용될 단백질-화합물의 결합구조를 생성하기 위한 대용량 컨포머들을 생성하는 단계와;
(B) 상기 컨포머들로터 생성된 단백질-화합물의 결합구조를 학습 데이터로 하여 합성곱 심층 전이학습 모델을 학습하는 단계;를 포함하여 수행됨을 특징으로 하는 3차원 합성곱 심층 학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법.
(A) generating large-scale conformers to generate a protein-compound binding structure to be used as learning data;
(B) learning a convolutional deep transfer learning model using the binding structure of the protein-compound generated from the conformers as learning data; protein using a three-dimensional convolutional deep learning model, characterized in that it is performed including; -How to predict the optimal binding structure of a compound.
제 1 항에 있어서,
상기 컨포머는,
12가지의 서로 다른 형태의 docking 결과에 의해 생성됨을 특징으로 하는 3차원 합성곱 심층 학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법.
According to claim 1,
The conformer is,
A protein-compound optimal binding structure prediction method using a 3D convolutional deep learning model characterized by being generated by 12 different types of docking results.
제 1 항에 있어서,
상기 (A)단계의 화합물은,
학습대상인 단백질-화합물 결합구조의 데이터 부족을 극복하기 위하여,
학습대상인 단백질과 결합관계가 확인되거나 예측된 화합물로부터 생성된 유도체(derivatives)임을 특징으로 하는 3차원 합성곱 심층 학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법.
According to claim 1,
The compound of step (A) is,
In order to overcome the lack of data on the protein-compound binding structure that is the subject of learning,
A protein-compound optimal binding structure prediction method using a 3D convolutional deep learning model, which is characterized as derivatives generated from compounds with confirmed or predicted binding relationships with the protein being studied.
제 3 항에 있어서,
상기 (A) 단계의 화합물은,
상기 유도체들 중 원자간 거리정보에 따라 산출되는 지수값(RMSD, Root Mean Square Deviation)에 따라 선별된 컨포머(conformer)임을 특징으로 하는 3차원 합성곱 심층 학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법.
According to claim 3,
The compound in step (A) is,
Among the derivatives, the protein-compound optimal binding structure using a 3D convolutional deep learning model is characterized as a conformer selected according to the root mean square deviation (RMSD) calculated according to the interatomic distance information. Prediction method.
제 4 항에 있어서,
상기 컨포머(conformer)는,
분자 동역학 시뮬레이션(MD simulation)을 통해 MD 궤적(trajectory)의 안정화 구간으로부터 추출됨을 특징으로 하는 3차원 합성곱 심층 학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법.
According to claim 4,
The conformer is,
A protein-compound optimal binding structure prediction method using a 3D convolutional deep learning model characterized by extraction from the stabilization section of the MD trajectory through molecular dynamics simulation (MD simulation).
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 3D-CNN 모델을 이용하여,
(C) 표적단백질과 분석대상 화합물의 결합구조(pose)를 예측하는 단계를 더 포함하여 수행됨을 특징으로 하는 3차원 합성곱 심층 학습 모델을 이용한 단백질-화합물 최적결합구조 예측 방법.
The method according to any one of claims 1 to 5,
Using the 3D-CNN model,
(C) A protein-compound optimal binding structure prediction method using a 3D convolutional deep learning model, which further includes the step of predicting the binding structure (pose) of the target protein and the analyte compound.
KR1020230126607A 2022-09-21 2023-09-21 Prediction method of protein-chemical complex structure using large scale conformer generation and 3D-CNN deep transfer learning model KR20240040667A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2023/014451 WO2024063581A1 (en) 2022-09-21 2023-09-21 Protein-compound optimal binding structure prediction method using large-capacity conformer generation and three-dimensional convolutional deep transfer learning model
PCT/KR2023/014453 WO2024063583A1 (en) 2022-09-21 2023-09-21 Method for generating derivatives using binding pocket structure of target protein through artificial intelligence drug discovery platform

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20220119657 2022-09-21
KR1020220119657 2022-09-21

Publications (1)

Publication Number Publication Date
KR20240040667A true KR20240040667A (en) 2024-03-28

Family

ID=90482853

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230126607A KR20240040667A (en) 2022-09-21 2023-09-21 Prediction method of protein-chemical complex structure using large scale conformer generation and 3D-CNN deep transfer learning model

Country Status (1)

Country Link
KR (1) KR20240040667A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100984735B1 (en) 2009-05-28 2010-10-01 동국대학교 산학협력단 New concept drug developement for screening drug candidate inhibitor of target protein-protein interaction
KR102181058B1 (en) 2019-03-13 2020-11-19 주식회사 메디리타 Method for data processing to derive new drug candidate substance
KR102496208B1 (en) 2022-02-21 2023-02-06 (주) 칼리시 A system for discovering new drug candidates and a computer program that implements a platform for discovering new drug candidates

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100984735B1 (en) 2009-05-28 2010-10-01 동국대학교 산학협력단 New concept drug developement for screening drug candidate inhibitor of target protein-protein interaction
KR102181058B1 (en) 2019-03-13 2020-11-19 주식회사 메디리타 Method for data processing to derive new drug candidate substance
KR102496208B1 (en) 2022-02-21 2023-02-06 (주) 칼리시 A system for discovering new drug candidates and a computer program that implements a platform for discovering new drug candidates

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
(비특허 문헌 8) A McNutt, P Francoeur.et.al GNINA 1.0: Molecular docking with deep learning J. Cheminformatics, 2021
Friesner RA.et.al Glide:a new approach for rapid, accurate docking and scoring. 1. Method and assessment of docking accuracy J Med Chem 2004
https://towardsdatascience.com/a-comprehensive-hands-on-guide-to-transfer-learning-with-real-world-applications-in-deep-learning-212bf3b2f27a
M Ragoza.et.al Protein-Ligand Scoring with Convolutional Neural Networks J. Chem. Inf. Model, 2017
McGann M.et.al FRED Pose Prediction and Virtual Screening Accuracy. Journal of Chemical Information and Modeling 2011
Ross, G. A.et.al One Size Does Not Fit All: The Limits of Structure-Based Models in Drug Discovery J. Chem.Theory Comput.2013
Ryan G. Coleman,.et.al Ligand Pose and Orientational Sampling in Molecular Docking. PLOS one 2023
Verdonk ML.et.al Improved protein-ligand docking using GOLD. Proteins: Structure, Function and Bioinformatics 2003

Similar Documents

Publication Publication Date Title
Pun et al. AI-powered therapeutic target discovery
Kim et al. Computational and artificial intelligence-based methods for antibody development
US8296116B2 (en) Bioinformatics system
US20220383993A1 (en) Method and device for designing compound
Mosca et al. Pushing structural information into the yeast interactome by high-throughput protein docking experiments
JP7048065B2 (en) How to learn connectivity prediction methods, devices, programs, recording media, and machine learning algorithms
CN101131707A (en) Automatic generating method for force field parameter of molecular mechanics
WO2006065950A2 (en) Modeling biological effects of molecules using molecular property models
CN115240762A (en) Multi-scale small molecule virtual screening method and system
Haque et al. A common neighbor based technique to detect protein complexes in PPI networks
KR20240040667A (en) Prediction method of protein-chemical complex structure using large scale conformer generation and 3D-CNN deep transfer learning model
CN111429972A (en) Protein small molecule docking scoring scheme based on deep learning
CN110534153A (en) Target prediction system and method based on deep learning
Prat et al. Hydrascreen: A generalizable structure-based deep learning approach to drug discovery
US20220351808A1 (en) Systems and methods for reinforcement learning molecular modeling
KR20240040670A (en) Aanalysis methods of protein-ligand docking structure based on vector for AI drug platform
KR20240040669A (en) Derivative creating methods using docking-pocket structure of target protein for AI drug platform
US20140171332A1 (en) System for the efficient discovery of new therapeutic drugs
KR20210026541A (en) A system of predicting compound activity for target protein using Homology and artificial neural network
Mailoa et al. Protein-Ligand Complex Generator & Drug Screening via Tiered Tensor Transform
Rahate et al. Applications of AI in Drug Discovery: Its Challenges, Opportunities, and Strategies
Mock et al. Recent advances in generative biology for biotherapeutic discovery
Jadczyk et al. Examining protein folding process simulation and searching for common structure motifs in a protein family as experiments in the gridspace2 virtual laboratory
Scheiber et al. Chemogenomic analysis of safety profiling data
Szalay AI in drug discovery