KR20240073770A - Method and apparatus for predicting protein-ligand docking for heme-protein - Google Patents

Method and apparatus for predicting protein-ligand docking for heme-protein Download PDF

Info

Publication number
KR20240073770A
KR20240073770A KR1020230156345A KR20230156345A KR20240073770A KR 20240073770 A KR20240073770 A KR 20240073770A KR 1020230156345 A KR1020230156345 A KR 1020230156345A KR 20230156345 A KR20230156345 A KR 20230156345A KR 20240073770 A KR20240073770 A KR 20240073770A
Authority
KR
South Korea
Prior art keywords
protein
ligand
docking
heme
scoring function
Prior art date
Application number
KR1020230156345A
Other languages
Korean (ko)
Other versions
KR102705722B1 (en
Inventor
석차옥
이창수
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Publication of KR20240073770A publication Critical patent/KR20240073770A/en
Application granted granted Critical
Publication of KR102705722B1 publication Critical patent/KR102705722B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명의 일 측면에 따른 단백질-리간드 도킹 예측 장치는, 단백질-리간드 도킹 예측 프로그램을 저장한 메모리; 및 상기 단백질-리간드 도킹 예측 프로그램을 실행하는 프로세서를 포함하되, 상기 단백질-리간드 도킹 예측 프로그램은, 헴단백질-리간드 복합체의 배위 결합 에너지를 나타내는 성분을 포함하는 스코어링 함수 및 헴단백질과 리간드 포즈간의 다양한 결합 모드를 나타내는 형태 공간으로부터 헴단백질-리간드 복합체 후보를 탐색하는 검색 알고리즘을 포함하고, 상기 스코어링 함수는 헴단백질-리간드 복합체를 데이터를 입력하여 단백질-리간드 도킹 스코어를 출력하는 것이되, 니어-네이티브(near-native) 포즈와 미끼(decoy)포즈를 포함하는 학습 데이터를 기초로 반복 학습되어 결정된 것이다.A protein-ligand docking prediction device according to one aspect of the present invention includes a memory storing a protein-ligand docking prediction program; and a processor that executes the protein-ligand docking prediction program, wherein the protein-ligand docking prediction program includes a scoring function including a component representing the coordination energy of the heme protein-ligand complex and various poses between the heme protein and the ligand. It includes a search algorithm that searches for heme protein-ligand complex candidates from a conformational space representing the binding mode, and the scoring function inputs data on the heme protein-ligand complex and outputs a protein-ligand docking score, near-native. It was determined through repeated learning based on learning data including a (near-native) pose and a decoy pose.

Description

헴단백질을 위한 단백질-리간드 도킹 예측 장치 및 방법{METHOD AND APPARATUS FOR PREDICTING PROTEIN-LIGAND DOCKING FOR HEME-PROTEIN}Protein-ligand docking prediction device and method for heme protein {METHOD AND APPARATUS FOR PREDICTING PROTEIN-LIGAND DOCKING FOR HEME-PROTEIN}

본 발명은 헴단백질을 위한 단백질-리간드 도킹 예측 장치 및 방법에 관한 것이다.The present invention relates to a protein-ligand docking prediction device and method for heme proteins.

구조 기반 약물 설계를 위해, 원자 수준의 분해능에서의 단백질-리간드 복합체의 구조를 파악하는 것은 약리 작용기 모델을 확립하고 약물 설계 전략에 대한 인사이트를 얻는 데 매우 중요하다. 특히, 3차원 구조를 결정하기 위해 실험적 접근법이 널리 채택되어 왔지만, 시간이 많이 걸리고 비용이 많이 들며 비효율적인 특성으로 인해, 모든 리드 최적화 단계에서 높은 처리량의 스크리닝 및 구조-활성 관계 연구에는 부적합하다. For structure-based drug design, understanding the structure of protein-ligand complexes at atomic-level resolution is very important to establish pharmacological functional group models and gain insights into drug design strategies. In particular, experimental approaches have been widely adopted to determine three-dimensional structures, but their time-consuming, costly and inefficient nature makes them unsuitable for high-throughput screening and structure-activity relationship studies at all lead optimization steps.

실험적 접근법에 대한 대안으로서, 분자 도킹 방법은 관심 있는 수용체 구조와 리간드 형태(conformation)들로부터 결합 포즈(binding pose)라고 하는 복합체 구조를 추론하는 데 활용되어 왔다. 또한, 도킹 시뮬레이션은 가상 스크리닝, 특히 쉽게 구매할 수 있는 화합물을 갖춘 초대형 라이브러리의 가상 스크리닝에 점점 더 많이 사용되고 있다.As an alternative to experimental approaches, molecular docking methods have been utilized to infer complex structures, called binding poses, from receptor structures and ligand conformations of interest. Additionally, docking simulations are increasingly used for virtual screening, especially of very large libraries with readily available compounds.

다양한 응용 분야에서 분자 도킹의 유용성에도 불구하고, 포즈 예측 및 결합 친화도(binding affinity) 예측의 정확성 향상을 위해, 여전히 개선의 여지가 있다. Despite the usefulness of molecular docking in a variety of applications, there is still room for improvement to improve the accuracy of pose prediction and binding affinity prediction.

분자 도킹의 성능을 평가하기 위해 다음과 같은 몇 가지 평가기준(metric)이 적용될 수 있다.Several metrics can be applied to evaluate the performance of molecular docking:

i) 도킹 파워: 특정 방법으로 생성된 미끼(decoy) 포즈와 니어-네이티브(near-native) 포즈들 중 니어-네이티브 포즈를 식별하는 능력 i) Docking power: Ability to identify near-native poses among decoy poses and near-native poses generated by a specific method.

ii) 포즈 예측 정확도: 예측된 바인딩 포즈가 네이티브 포즈에 얼마나 가까운지 평가함. 샘플링 파워로도 불리며 검색 알고리즘을 이용하여 포즈를 생성한 뒤 최종적으로 생성되어 선택된 포즈 또는 포즈들이 네이티브 포즈에 얼마나 가까운 지를 평가함. 단순히 포즈들을 식별하는 것만이 아닌 직접 생성하는 능력까지 평가한다는 점에서 도킹파워와 차이가 있음ii) Pose prediction accuracy: evaluates how close the predicted binding pose is to the native pose. Also called sampling power, it generates poses using a search algorithm and then evaluates how close the final created and selected pose or poses are to the native pose. It differs from docking power in that it evaluates the ability to create poses rather than simply identifying them.

iii) 스크리닝 파워: 라이브러리에서 잠재적인 바인더를 찾는 능력을 나타냄 iii) Screening power: represents the ability to find potential binders in the library.

iv) 점수화 파워: 예측된 결합 친화도 점수와 실험 친화도 간의 선형 상관관계를 평가함iv) Scoring power: evaluates the linear correlation between predicted binding affinity scores and experimental affinity.

위의 평가 기준 중 포즈 예측 정확도는 예측된 결합 포즈의 품질을 평가하는 데 사용되며, 본 발명과 관련한 주요 평가 기준이 된다. Among the above evaluation criteria, pose prediction accuracy is used to evaluate the quality of the predicted combined pose and is the main evaluation criterion related to the present invention.

종래의 기술로 알려진 딥독(DeepDock, O. Mιndez-Lucio, M. Ahmad, E. A. del Rio-Chanona and J. K.Wegner, Nature Machine Intelligence, 2021, 3, 1033-1039.) 방식의 경우 포즈 예측 정확도가 도킹 파워보다 각각 62%, 87%로 낮다. 이는 도킹 파워와 포즈 예측 정확도 테스트에서 샘플링된 형태 공간(conformation space)의 특성이 다르기 때문에 발생할 수 있다. 즉, 도킹 파워의 경우 특정 알고리즘으로 생성된 미끼 포즈들과 니어-네이티프 포즈들로 한정된 형태 공간에서만 식별 능력이 좋으면 되지만, 포즈 예측 정확도의 경우 검색하는 범위의 모든 형태 공간에서 식별 능력이 좋으면서 검색 알고리즘이 니어-네이티브 포즈를 찾을 수 있어야 하기 때문이다.In the case of the DeepDock (O. Mιndez-Lucio, M. Ahmad, E. A. del Rio-Chanona and J. K.Wegner, Nature Machine Intelligence, 2021, 3, 1033-1039.) method known as conventional technology, the pose prediction accuracy is related to the docking power. lower at 62% and 87%, respectively. This may occur because the characteristics of the conformation space sampled in the docking power and pose prediction accuracy tests are different. In other words, in the case of docking power, good discrimination ability is required only in the shape space limited to decoy poses and near-native poses generated by a specific algorithm, but in the case of pose prediction accuracy, good discrimination ability is required in all shape spaces in the search range. This is because the search algorithm must be able to find near-native poses.

분자 도킹의 두 가지 핵심 요소는 스코어링과 검색으로서, 분자 도킹 성능을 개선하기 위해서는 이들 방법에 대한 개량이 필요하다. 스코어링 함수는 일반적으로 형태(conformation)의 에너지 점수를 산출한다. 또한, 스코어링 함수의 개발을 위해 물리 기반, 경험적 최적화, 지식 기반 접근법이 적용되어 왔다. 최근에는 머신러닝과 딥러닝 기반 접근법을 활용하여 기존 피팅 방법의 수치적 한계를 극복하는 연구가 진행되고 있다. The two key elements of molecular docking are scoring and searching, and improvements to these methods are needed to improve molecular docking performance. Scoring functions generally calculate the energy score of a conformation. Additionally, physics-based, empirical optimization, and knowledge-based approaches have been applied to develop scoring functions. Recently, research is being conducted to overcome the numerical limitations of existing fitting methods using machine learning and deep learning-based approaches.

반면, 검색 알고리즘은 형태를 샘플링하고 샘플 점수를 최소화하여, 네이티브(native) 바인딩 포즈로 간주되는 형태 공간의 전역 최소값에 도달하려고 시도한다. 대표적인 검색 알고리즘은 글로벌 최적화 알고리즘이며, 글로벌 최적화 알고리즘에는 몬테카를로 방법, 유전적 알고리즘, 파티클 스웜 최적화, 컨포멀 공간 어닐링과 같은 방법이 알려져있다. 이후 좀더 설명하겠지만, 본 발명에서는 컨포멀 공간 어닐링 (CSA: conformational space annealing)을 예시적으로 이용하였으며, 본 발명이 이에 제한되지는 않고, 다른 검색 알고리즘의 사용도 가능하다.On the other hand, the search algorithm samples shapes and minimizes the sample scores, attempting to reach a global minimum in the shape space that is considered the native binding pose. A representative search algorithm is a global optimization algorithm, and known global optimization algorithms include Monte Carlo method, genetic algorithm, particle swarm optimization, and conformal space annealing. As will be explained further later, conformational space annealing (CSA) is used as an example in the present invention, but the present invention is not limited thereto, and other search algorithms can also be used.

스코어링과 검색은 분자 도킹을 조율하는데, 최소화 목표가 스코어링 함수 자체의 결과라는 점에서, 도킹 방법의 개발은 실험 포즈, 인공적으로 생성된 미끼(decoy) 또는 샘플링된 형태 등 어떤 방식으로 얻든 리간드 형태에 편향될 수밖에 없다. 앞서 언급했듯이 도킹 파워보다 낮은 포즈 예측 정확도는 검색 알고리즘의 중요성을 강조한다. 또한, 예를 들어 RTMScore는 RTMScore 훈련에 사용된 도킹 방법과 다른 도킹 방법으로 인해 생성된 형태에 대해 도킹 파워가 저하된 것으로 나타났다. 더 나은 샘플링과 최적화를 위해 방대한 형상 공간을 탐색하기 위해 더 많은 무작위 실험을 통한 철저한 샘플링이 채택되기도 하였다. 그러나 이는 근본적인 해결책이 아니며 더 많은 계산 비용이 필요할 수 있다. 따라서 높은 포즈 예측 정확도를 가지는 도킹 알고리즘을 개발하려면 실제로 검색 알고리즘이 포함된 도킹 시뮬레이션을 돌려보면서, 스코어링 함수가 검색 범위의 모든 형태 공간에서 얻어지는 포즈들에 대해서 점수를 잘 매기는 지 확인해보고, 점수를 잘못 매긴 포즈를 제대로 보정하는 방식으로 스코어링 함수를 보완해야할 필요가 있다.Scoring and searching coordinate molecular docking, and given that the minimization goal is a result of the scoring function itself, the development of docking methods is biased toward the ligand conformation, whether obtained through experimental poses, artificially generated decoys, or sampled conformations. It has no choice but to be. As previously mentioned, the pose prediction accuracy lower than the docking power highlights the importance of the search algorithm. Additionally, for example, RTMScore showed reduced docking power for conformations generated by docking methods that were different from those used to train RTMScore. Thorough sampling through more random experiments was also adopted to explore the vast shape space for better sampling and optimization. However, this is not a fundamental solution and may require more computational costs. Therefore, to develop a docking algorithm with high pose prediction accuracy, run a docking simulation that actually includes a search algorithm, check whether the scoring function scores well the poses obtained in all shape spaces in the search range, and calculate the score. There is a need to supplement the scoring function by properly correcting incorrectly scored poses.

한편, 시토크롬(Cytochrome P450s, CYP450)을 포함한 특정 헴단백질들은 신약개발에서 중요한 역할을 하는 것으로 알려져 있다. 헴단백질은 헴(heme)을 보결분자단(Prosthetic group)으로 갖고 있는 금속단백질로서, 시토크롬 P450, 산화질소 합성효소, 방향화효소와 같은 일부 헴 단백질은 약물 발견과의 관련성 때문에 관심을 끌고 있다. 특히 시토크롬 P450 효소는 약물대사에 중요한 역할을 하는 것으로 알려져 있다. 시토크롬 P450의 촉매작용 억제 또는 유도는 독성이나 약물간 부작용과 같은 예상치 못한 임상 효과를 초래할 수 있다. 따라서, 신약으로 개발할 저분자 화합물이 위와 같은 헴단백질과 어떻게 결합할지를 예측할 수 있을 경우 CYP450 유도 혹은 억제에 의한 약물 상호작용 예측과 대사에 의한 독성 예측 또는 표적이 되는 헴단백질과 잘 결합할 수 있는지를 확인하는 데 큰 도움이 된다. Meanwhile, certain heme proteins, including cytochromes (Cytochrome P450s, CYP450), are known to play an important role in new drug development. Heme proteins are metalloproteins that contain heme as a prosthetic group. Some heme proteins, such as cytochrome P450, nitric oxide synthase, and aromatase, are attracting attention because of their relevance to drug discovery. In particular, cytochrome P450 enzymes are known to play an important role in drug metabolism. Inhibition or induction of cytochrome P450 catalysis may result in unexpected clinical effects such as toxicity or drug-to-drug side effects. Therefore, if it is possible to predict how a small molecule compound to be developed as a new drug will bind to the above heme protein, predict drug interactions by inducing or inhibiting CYP450, predict toxicity due to metabolism, or check whether it can bind well to the target heme protein. It is of great help in doing so.

그러나 헴단백질들의 경우 배위결합할 수 있는 헴 철 이온이 존재하기 때문에 보편적인 구조 예측 모델인 도킹 모델에서 헴단백질과 저분자 화합물 사이의 결합 구조가 잘 예측되지 않는 경우가 많다. 이를 해결하기 위해 현재까지 소수의 도킹 프로그램들만이 헴단백질에 특화되어 개발되었다. 그러나 소수의 특화된 도킹 프로그램들의 경우 최근에 나온 헴단백질 결정구조를 활용하지 못하고 개발되었으며 이에 따라 성능 개선의 여지가 아직 많이 남아있다. However, in the case of heme proteins, because heme iron ions exist that can coordinate, the binding structure between heme proteins and low-molecular-weight compounds is often not well predicted in the docking model, which is a universal structure prediction model. To solve this problem, only a small number of docking programs have been developed to date specifically for heme proteins. However, a small number of specialized docking programs were developed without utilizing the recently released heme protein crystal structure, so there is still room for performance improvement.

이에, 본 발명은 최근에 제시된 헴단백질 결정구조를 이용하여, 배위결합을 더 잘 고려한 구조 샘플링 방법과 평가함수를 헴단백질 도킹에 활용하는 단백질-리간드 예측 장치를 제안한다. Accordingly, the present invention proposes a protein-ligand prediction device that utilizes a structure sampling method and evaluation function that better considers coordination bonds for heme protein docking, using the recently presented heme protein crystal structure.

기존의 평가함수에 배위결합과 관련된 에너지 요소를 추가하였고 추가된 요소를 실험적으로 얻어진 헴단백질 결정구조를 활용하여 유사 결정 구조 (near-native)와 결정 구조와 차이가 많이 나는 구조 (decoy)를 식별할 수 있도록 최적화시켰다. 또한 샘플링 과정에서 배위결합의 변화(수소 이온과 배위결합하다가 헴의 철 이온과 배위결합)를 어느 정도 고려할 수 있는 평가함수를 고안하였다. 추가된 데이터와 추가적인 설정들로 인해 배위결합하는 저분자 화합물-헴단백질 결정구조를 더 잘 예측할 수 있게 되었다.An energy element related to coordination was added to the existing evaluation function, and the added element was used to identify a similar crystal structure (near-native) and a structure that differs greatly from the crystal structure (decoy) by using the experimentally obtained heme protein crystal structure. optimized so that it can be done. In addition, we designed an evaluation function that can take into account, to some extent, the change in coordination (from coordination with hydrogen ions to coordination with iron ions of heme) during the sampling process. The added data and additional settings made it possible to better predict the crystal structure of the coordinating small molecule compound-heme protein.

대한민국 공개특허 10-2020-0128710(발명의 명칭: 머신 러닝 및 분자 시뮬레이션에 기반한 결합 및 활성 예측 향상 방법)Republic of Korea Patent Publication No. 10-2020-0128710 (Title of the invention: Method for improving binding and activity prediction based on machine learning and molecular simulation)

본 발명은 전술한 문제점을 해결하기 위하여, 헴단백질과 대상물질간의 결합을 예측할 수 있는 단백질-리간드 도킹 예측 장치 및 방법을 제공하는 것을 목적으로 한다.In order to solve the above-mentioned problems, the purpose of the present invention is to provide a protein-ligand docking prediction device and method that can predict the binding between a heme protein and a target substance.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical challenges that this embodiment aims to achieve are not limited to the technical challenges described above, and other technical challenges may exist.

본 발명의 일 측면에 따른 단백질-리간드 도킹 예측 장치는, 단백질-리간드 도킹 예측 프로그램을 저장한 메모리; 및 상기 단백질-리간드 도킹 예측 프로그램을 실행하는 프로세서를 포함하되, 상기 단백질-리간드 도킹 예측 프로그램은, 헴단백질-리간드 복합체의 배위 결합 에너지를 나타내는 성분을 포함하는 스코어링 함수 및 헴단백질과 리간드 포즈간의 다양한 결합 모드를 나타내는 형태 공간으로부터 헴단백질-리간드 복합체 후보를 탐색하는 검색 알고리즘을 포함하고, 상기 스코어링 함수는 헴단백질-리간드 복합체를 데이터를 입력하여 단백질-리간드 도킹 스코어를 출력하는 것이되, 니어-네이티브(near-native) 포즈와 미끼(decoy)포즈를 포함하는 학습 데이터를 기초로 반복 학습되어 결정된 것이다.A protein-ligand docking prediction device according to one aspect of the present invention includes a memory storing a protein-ligand docking prediction program; and a processor that executes the protein-ligand docking prediction program, wherein the protein-ligand docking prediction program includes a scoring function including a component representing the coordination energy of the heme protein-ligand complex and various poses between the heme protein and the ligand. It includes a search algorithm that searches for heme protein-ligand complex candidates from a conformational space representing the binding mode, and the scoring function inputs data on the heme protein-ligand complex and outputs a protein-ligand docking score, near-native. It was determined through repeated learning based on learning data including a (near-native) pose and a decoy pose.

본 발명의 다른 측면에 따른 단백질-리간드 도킹 예측 장치의 단백질-리간드 도킹 예측 방법은 헴단백질-리간드 복합체의 배위 결합 에너지를 나타내는 성분을 포함하는 스코어링 함수와 헴단백질과 리간드 포즈간의 다양한 결합 모드를 나타내는 형태 공간으로부터 헴단백질-리간드 복합체 후보를 탐색하는 검색 알고리즘을 포함하는 단백질-리간드 도킹 예측 프로그램이 제공되는 단계; 및 상기 스코어링 함수에 헴단백질-리간드 복합체를 데이터를 입력하여 단백질-리간드 도킹 스코어를 출력하는 단계를 포함하되, 상기 스코어링 함수는 니어-네이티브(near-native) 포즈와 미끼(decoy)포즈를 포함하는 학습 데이터를 기초로 반복 학습되어 결정된 것이다.The protein-ligand docking prediction method of the protein-ligand docking prediction device according to another aspect of the present invention includes a scoring function including a component representing the coordinate binding energy of the heme protein-ligand complex and a scoring function representing various binding modes between the heme protein and the ligand pose. Providing a protein-ligand docking prediction program including a search algorithm to search for heme protein-ligand complex candidates from conformation space; And inputting data of the heme protein-ligand complex to the scoring function to output a protein-ligand docking score, wherein the scoring function includes a near-native pose and a decoy pose. It was determined through repeated learning based on the learning data.

전술한 본 발명의 해결 수단에 따르면, 헴단백질의 결합구조가 점점 늘어날수록 기존의 평가함수를 수정하거나 개량하지 않고도 훈련과정 (최적화 과정)을 통하여 평가함수의 정확성이 더 증가할 수 있다는 장점이 있다. According to the solution of the present invention described above, there is an advantage that as the binding structure of heme protein increases, the accuracy of the evaluation function can be further increased through a training process (optimization process) without modifying or improving the existing evaluation function. .

그리고, 헴단백질과 저분자 화합물 사이의 결합구조가 더 늘어난다면 기존의 헴단백질에 대한 도킹 정확도보다 더 높은 정확도를 달성할 수 있다. Additionally, if the binding structure between heme proteins and low-molecular-weight compounds increases, higher accuracy than the existing docking accuracy for heme proteins can be achieved.

또한 본 발명은 다른 평가함수에도 적용될 수 있으며 기존 평가함수의 성능을 거의 해치지 않고 적용될 수 있다. Additionally, the present invention can be applied to other evaluation functions and can be applied with little or no damage to the performance of existing evaluation functions.

또한, 본 발명의 방법은 자기 도킹(self-docking) 또는 재도킹(re-docking) 방법으로 단백질 구조가 고정된 상태에서 도킹하는 방법인데, 이러한 기술적인 원리는 단백질 구조가 변화하는 플렉서블 도킹(flexible-docking) 또는 크로스 도킹(cross-docking)에도 확장할 수 있다는 장점이 있다.In addition, the method of the present invention is a method of docking while the protein structure is fixed by self-docking or re-docking, and this technical principle is based on flexible docking where the protein structure changes. It has the advantage of being expandable to -docking or cross-docking.

도 1은 본 발명의 일 실시예에 따른 단백질-리간드 도킹 예측 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일실시예에 따른 단백질-리간드 도킹 예측 프로그램의 주요 기능 요소를 도시한 것이다.
도 3은 본 발명의 일 실시예에 따른 배위 결합 상태를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 스코어링 함수를 생성하는 과정을 도시한 순서도이다.
도 5와 도 6은 본 발명의 일 실시예에 따른 스코어링 함수 생성 방법의 실험 결과를 도시한 것이다.
Figure 1 is a block diagram showing the configuration of a protein-ligand docking prediction device according to an embodiment of the present invention.
Figure 2 illustrates the main functional elements of a protein-ligand docking prediction program according to an embodiment of the present invention.
Figure 3 is a diagram for explaining a coordinate bond state according to an embodiment of the present invention.
Figure 4 is a flowchart showing the process of generating a scoring function according to an embodiment of the present invention.
Figures 5 and 6 show experimental results of a scoring function generation method according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Below, with reference to the attached drawings, embodiments of the present invention will be described in detail so that those skilled in the art can easily implement the present invention. However, the present invention may be implemented in many different forms and is not limited to the embodiments described herein. In order to clearly explain the present invention in the drawings, parts unrelated to the description are omitted, and similar parts are given similar reference numerals throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is said to be "connected" to another part, this includes not only the case where it is "directly connected," but also the case where it is "electrically connected" with another element in between. . Additionally, when a part "includes" a certain component, this means that it may further include other components rather than excluding other components, unless specifically stated to the contrary.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. 한편, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, '~부'는 어드레싱 할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.In this specification, 'part' includes a unit realized by hardware, a unit realized by software, and a unit realized using both. Additionally, one unit may be realized using two or more pieces of hardware, and two or more units may be realized using one piece of hardware. Meanwhile, '~ part' is not limited to software or hardware, and '~ part' may be configured to reside in an addressable storage medium or may be configured to reproduce one or more processors. Therefore, as an example, '~ part' refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, and procedures. , subroutines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays, and variables. The functions provided within the components and 'parts' may be combined into a smaller number of components and 'parts' or may be further separated into additional components and 'parts'. Additionally, components and 'parts' may be implemented to refresh one or more CPUs within the device.

이하에서 언급되는 단백질-리간드 도킹 예측 장치는 네트워크를 통해 서버나 타 단말에 접속할 수 있는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 각종 이동 통신 기반 단말, 스마트폰, 태블릿 PC 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다. 또한, "네트워크"는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN) 또는 부가가치 통신망(Value Added Network; VAN) 등과 같은 유선 네트워크나 이동 통신망(mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있다. The protein-ligand docking prediction device mentioned below can be implemented as a computer or portable terminal that can connect to a server or other terminal through a network. Here, the computer includes, for example, a laptop, desktop, laptop, etc. equipped with a web browser, and the portable terminal is, for example, a wireless communication device that guarantees portability and mobility. , may include all types of handheld-based wireless communication devices such as various mobile communication-based terminals, smartphones, tablet PCs, etc. Additionally, “network” refers to a wired network, mobile radio communication network, or satellite, such as a Local Area Network (LAN), Wide Area Network (WAN), or Value Added Network (VAN). It can be implemented with any type of wireless network, such as a communication network.

도 1은 본 발명의 일 실시예에 따른 단백질-리간드 도킹 예측 장치의 구성을 도시한 블록도이다.Figure 1 is a block diagram showing the configuration of a protein-ligand docking prediction device according to an embodiment of the present invention.

단백질-리간드 도킹 예측 장치(100)는 프로세서(110)와 메모리(120)를 포함하고, 통신 모듈(130)과 데이터베이스(140)를 더 포함할 수 있다. 또한, 단백질-리간드 도킹 예측 장치(100)는 헴단백질에 대하여 대상 물질의 리간드가 어떤 형태로 얼마나 강하게 결합 또는 도킹되는지를 예측한다. 이와 같은, 단백질-리간드 도킹 예측 장치(100)는 단백질-리간드 도킹 예측 정보를 제공하는 서버로서 구현될 수 있다. 단백질-리간드 도킹 예측 장치(100)가 서버로서 기능하는 경우, SaaS (Software as a Service), PaaS (Platform as a Service) 또는 IaaS (Infrastructure as a Service)와 같은 클라우드 컴퓨팅 서비스 모델에서 동작할 수 있다. 또한, 단백질-리간드 도킹 예측 장치(100)는 사설(private) 클라우드, 공용(public) 클라우드 또는 하이브리드(hybrid) 클라우드와 같은 형태로 구축될 수 있다.The protein-ligand docking prediction device 100 includes a processor 110 and a memory 120, and may further include a communication module 130 and a database 140. Additionally, the protein-ligand docking prediction device 100 predicts in which form and how strongly the ligand of the target substance is bound or docked to the heme protein. As such, the protein-ligand docking prediction device 100 can be implemented as a server that provides protein-ligand docking prediction information. When the protein-ligand docking prediction device 100 functions as a server, it may operate in a cloud computing service model such as SaaS (Software as a Service), PaaS (Platform as a Service), or IaaS (Infrastructure as a Service). . Additionally, the protein-ligand docking prediction device 100 may be built in a private cloud, public cloud, or hybrid cloud.

메모리(120)는 단백질-리간드 도킹 예측 프로그램이 저장된다. 단백질-리간드 도킹 예측 프로그램은 헴단백질에 대하여 리간드가 어떤 형태로 얼마나 강하게 결합 또는 도킹되는지를 예측한다. 단백질 도킹 예측 프로그램은 검색 알고리즘과 스코어링 함수를 포함한다. 단백질 도킹 예측 프로그램은 검색 알고리즘을 통해, 다양한 리간드가 헴단백질에 결합 가능한 형태의 모든 구조를 생성하여, 헴단백질과 리간드를 도킹한다. 그리고, 단백질 도킹 예측 프로그램은 헴단백질과 리간드의 각 도킹 상태에 대하여 도킹 스코어를 출력한다. 이때, 도킹 스코어는 그 점수가 낮을수록 결합 강도가 높은 것을 의미한다. The memory 120 stores a protein-ligand docking prediction program. The protein-ligand docking prediction program predicts in which form and how strongly the ligand binds or docks to the heme protein. The protein docking prediction program includes a search algorithm and scoring function. The protein docking prediction program uses a search algorithm to generate all structures in which various ligands can bind to heme proteins and docks the heme proteins and ligands. In addition, the protein docking prediction program outputs docking scores for each docking state of the heme protein and the ligand. At this time, the lower the docking score, the higher the binding strength.

본 발명의 단백질-리간드 도킹 예측 프로그램의 스코어링 함수는 헴단백질의 배위결합(coordination bond)과 관련된 인자들이 추가된 것을 특징으로 하며, 대상 물질인 저분자 화합물과 헴단백질의 결합구조를 이용하여 개발되었다. 구체적인 구성은 추후 설명하기로 한다.The scoring function of the protein-ligand docking prediction program of the present invention is characterized by the addition of factors related to the coordination bond of heme protein, and was developed using the binding structure of the target substance, a low-molecular compound and heme protein. The specific configuration will be explained later.

또한, 메모리(120)는 프로세서(110)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 여기서, 메모리(120)는 휘발성 저장 매체(volatile storage media) 또는 비휘발성 저장 매체(non-volatile storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.Additionally, the memory 120 functions to temporarily or permanently store data processed by the processor 110. Here, the memory 120 may include volatile storage media or non-volatile storage media, but the scope of the present invention is not limited thereto.

프로세서(110)는 메모리(120)에 저장된 단백질-리간드 도킹 예측 프로그램을 실행한다. 또한, 프로세서(110)는 단백질-리간드 도킹 예측 장치(100)의 운영을 위한 각종 제어 동작을 수행한다. 프로세서(110)는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array), 그래픽 처리 장치 (GPU: graphics processing unit) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.The processor 110 executes the protein-ligand docking prediction program stored in the memory 120. Additionally, the processor 110 performs various control operations for operating the protein-ligand docking prediction device 100. The processor 110 may refer to, for example, a data processing device built into hardware that has a physically structured circuit to perform a function expressed as code or instructions included in a program. Examples of data processing devices built into hardware include a microprocessor, central processing unit (CPU), processor core, multiprocessor, and application-specific integrated (ASIC). circuit), FPGA (field programmable gate array), and graphics processing unit (GPU: graphics processing unit), but the scope of the present invention is not limited thereto.

통신 모듈(130)은 외부 컴퓨팅 장치와 여러 종류의 데이터를 송수신하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신 모듈(130)을 통해, 단백질-리간드 복합체의 3차원 구조를 나타내는 각종 데이터를 수신할 수 있으며, 출력된 단백질-리간드 도킹 점수를 다른 컴퓨팅 장치에 전송할 수 있다. 통신모듈(130)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.The communication module 130 may include one or more components that transmit and receive various types of data with an external computing device. For example, through the communication module 130, various data representing the three-dimensional structure of the protein-ligand complex can be received, and the output protein-ligand docking score can be transmitted to another computing device. The communication module 130 may be a device that includes hardware and software necessary to transmit and receive signals such as control signals or data signals through wired or wireless connections with other network devices.

데이터베이스(140)는 단백질-리간드 도킹 예측 프로그램의 실행을 위해 필요한 각종 데이터를 관리할 수 있다. 예를 들어, 헴단백질과 리간드 복합체 후보에 대한 데이터나, 도킹 포즈들에 대한 다양한 데이터 들을 저장할 수 있다.The database 140 can manage various data necessary for executing a protein-ligand docking prediction program. For example, data on heme protein and ligand complex candidates or various data on docking poses can be stored.

이제, 단백질-리간드 도킹 예측 프로그램의 상세 구성을 살펴보기로 한다.Now, let's look at the detailed structure of the protein-ligand docking prediction program.

도 2는 본 발명의 일실시예에 따른 단백질-리간드 도킹 예측 프로그램의 주요 기능 요소를 도시한 것이다.Figure 2 illustrates the main functional elements of a protein-ligand docking prediction program according to an embodiment of the present invention.

도시된 바와 같이, 단백질-리간드 도킹 예측 프로그램(200)은 헴단백질에 대한 정보와 리간드에 대한 정보를 수신하고, 다양한 단백질-리간드 복합체 후보들을 생성할 수 있다. 이러한 복합체 후보들 중에는 정답, 즉 네이티브(native)에 가까운 구조가 있을 수 있고, 또는 네이티브와는 거리가 먼 구조도 있을 수 있다. 또한, 단백질-리간드 도킹 예측 프로그램 (200)이 정답 구조를 만들어내지 못하는 경우도 있을 수 있다. 이와 같은, 각각의 단백질-리간드 복합체 후보들은 해당되는 크리스털 포즈에 대한 리간드 RMSD(Root Mean Square Distance)에 의해 평가될 수 있다. As shown, the protein-ligand docking prediction program 200 receives information about the heme protein and information about the ligand, and can generate various protein-ligand complex candidates. Among these complex candidates, there may be a correct answer, that is, a structure that is close to the native, or there may be a structure that is far from the native. Additionally, there may be cases where the protein-ligand docking prediction program 200 does not produce the correct structure. As such, each protein-ligand complex candidate can be evaluated by the ligand RMSD (Root Mean Square Distance) for the corresponding crystal pose.

단백질-리간드 도킹 예측 프로그램(200)은 검색 알고리즘(210)과 스코어링 함수(220)를 포함할 수 있다. 검색 알고리즘(210)은 다양한 결합 모드(binding mode)들을 나타내는 거대한 형태 공간(conformational space)을 탐색하고, 최적화를 통해 단백질-리간드 복합체 후보를 탐색한다. 스코어링 함수(220)는 탐색된 단백질-리간드 복합체의 에너지 점수를 산출하는 것으로, 특히 단백질-리간드 복합체 구조에서 리간드와 수용체 사이의 상호작용 정보를 설명하는 함수일 수 있다. The protein-ligand docking prediction program 200 may include a search algorithm 210 and a scoring function 220. The search algorithm 210 searches a large conformational space representing various binding modes and searches for protein-ligand complex candidates through optimization. The scoring function 220 calculates the energy score of the searched protein-ligand complex, and may be a function that specifically describes interaction information between the ligand and receptor in the protein-ligand complex structure.

단백질-리간드 도킹 예측 프로그램(200)은 검색 알고리즘(210)을 이용하여 복수의 리간드 포즈(또는 리간드 형태)가 저장된 뱅크로부터 최적의 리간드 포즈를 검색한다. 이때, 검색 알고리즘(210)은 컨포멀 공간 어닐링(CSA: conformational space annealing)를 사용할 수 있다. CSA는 임의의 리간드 포즈를 포함하는 형태로 초기 뱅크를 생성하고, 초기 뱅크에 포함된 리간드 포즈들 사이의 돌연변이와 교차를 통해 시도(trial) 리간드를 생성한 다음, 시도 리간드들에 대해 로컬 최소화를 적용한다. 이후, 시도 리간드 포즈와 뱅크 리간드 포즈의 점수 및 이들 간의 구조 다양성을 고려하여 뱅크를 업데이트한다. CSA는 생성된 뱅크의 에너지 최소값을 사전 정의된 온도 파라미터로 시뮬레이션 어닐링을 통해 조사할 수 있다. CSA 알고리즘을 분자 도킹에 사용한 연구는 종래 기술(W.-H. Shin, L. Heo, J. Lee, J. Ko, C. Seok and J. Lee, Journal of computational chemistry, 2011, 32, 3226-3232. W.-H. Shin, J.-K. Kim, D.-S. Kim and C. Seok, Journal of computational chemistry, 2013, 34, 2647-2656. J. Yang, M. Baek and C. Seok, Journal of Computational Chemistry, 2019, 40, 2739-2748. W.-H. Shin and C. Seok, Journal of chemical information and modeling, 2012, 52, 3225-3232.)에 해당하므로, 이에 대한 상세한 설명은 생략한다. The protein-ligand docking prediction program 200 uses a search algorithm 210 to search for an optimal ligand pose from a bank in which a plurality of ligand poses (or ligand forms) are stored. At this time, the search algorithm 210 may use conformational space annealing (CSA). CSA generates an initial bank containing random ligand poses, generates trial ligands through mutations and crossovers between the ligand poses included in the initial bank, and then performs local minimization on the trial ligands. Apply. Afterwards, the bank is updated taking into account the scores of the trial ligand pose and the bank ligand pose and the structural diversity between them. CSA allows the energy minima of the generated banks to be investigated through simulated annealing with predefined temperature parameters. Studies using the CSA algorithm for molecular docking have been conducted in the prior art (W.-H. Shin, L. Heo, J. Lee, J. Ko, C. Seok and J. Lee, Journal of computational chemistry, 2011, 32, 3226- 3232. W.-H. Shin, J.-K. Kim, D.-S. Kim and C. Seok, Journal of computational chemistry, 2013, 34, 2647-2656. Seok, Journal of Computational Chemistry, 2019, 40, 2739-2748. W.-H. Shin and C. Seok, Journal of chemical information and modeling, 2012, 52, 3225-3232. is omitted.

스코어링 함수(220)는 본 출원의 발명자가 기존에 개발한 스코어링 함수(GalaxyDock BP2 Score, Baek, M., Shin, WH., Chung, H.W. et al. GalaxyDock BP2 score: a hybrid scoring function for accurate protein-ligand docking. J Comput Aided Mol Des 31, 653-666 (2017). https://doi.org/10.1007/s10822-017-0030-9)에 헴단백질의 배위결합 관련 인자들이 추가된 것으로, 구체적인 구성은 수학식 1과 같다.The scoring function 220 is a scoring function previously developed by the inventor of the present application (GalaxyDock BP2 Score, Baek, M., Shin, WH., Chung, H.W. et al. GalaxyDock BP2 score: a hybrid scoring function for accurate protein- Ligand docking. J Comput Aided Mol Des 31, 653-666 (2017) (https://doi.org/10.1007/s10822-017-0030-9) with the addition of heme protein coordination-related factors. is the same as Equation 1.

[수학식 1][Equation 1]

먼저, 기존 개발한 스코어링 함수의 인자를 살펴보면, 총 6개의 단백질-리간드 상호 작용(PL 첨자로 표시됨)을 나타내는 항들 중 처음 4개의 항(: Lennard-Jones 포텐셜, : 방향 의존적 수소 결합 에너지, : 스크리닝된 쿨롱 에너지, : 탈용매 자유 에너지 )은 분자 역학 에너지를 나타내는 것이고, 나머지 항들은 순수 분자 역학에서 누락 효과(missing effect)를 나타내는 것(: X-점수로부터 얻은 경험적 소수성 매칭 점수, :DrugScore에서 파생된 통계적 포텐셜)이다. 또한, 기존 개발한 스코어링 함수는 리간드 내 상호작용(L첨자로 표시됨)을 나타내는 항들( : Lennard-Jones 포텐셜, : 방향 의존적 수소 결합 에너지 ,: 스크리닝된 쿨롱 에너지, : 탈용매 자유 에너지, : 리간드 내부 비틀림 에너지)을 포함한다.First, looking at the factors of the previously developed scoring function, among the terms representing a total of six protein-ligand interactions (indicated by the PL subscript), the first four terms ( : Lennard-Jones potential, : Direction-dependent hydrogen bond energy, : Screened Coulomb energy, : Desolvation free energy ) represents the molecular dynamics energy, and the remaining terms represent missing effects in pure molecular dynamics ( : Empirical minority matching score obtained from X-score, :Statistical potential derived from DrugScore). In addition, the previously developed scoring function includes terms representing intra-ligand interactions (indicated by the L subscript) ( : Lennard-Jones potential, : Direction dependent hydrogen bond energy, : Screened Coulomb energy, : Desolvation free energy, : internal torsional energy of the ligand).

이에 더하여, 본 발명에서 제안하는 신규 스코어링 함수에 추가된 인자()는 금속-리간드 배위 결합 에너지를 나타내는 것으로, 보다 구체적으로는 수학식 2와 같이, 총 4가지의 인자를 포함한다. In addition, the factor added to the new scoring function proposed by the present invention ( ) represents the metal-ligand coordination bond energy, and more specifically, includes a total of four factors, as shown in Equation 2.

[수학식 2][Equation 2]

즉, 첫번째 인자()는 철(Fe) 이온과 비 방향족 질소(non-aromatic nitrogen) 사이의 포텐셜을 나타내고, 두번째 인자()는 철(Fe)이온과 방향족 질소(aromatic nitrogen)사이의 포텐셜을 나타내고, 세번째 인자()는 철(Fe)이온과 황(sulfur)사이의 포텐셜을 나타내고, 네번째 인자()는 철(Fe)이온과 산소 원자(oxygen atom) 사이의 포텐셜을 나타낸다. That is, the first argument ( ) represents the potential between iron (Fe) ions and non-aromatic nitrogen, and the second factor ( ) represents the potential between iron (Fe) ions and aromatic nitrogen, and the third factor ( ) represents the potential between iron (Fe) ions and sulfur, and the fourth factor ( ) represents the potential between iron (Fe) ions and oxygen atoms.

그리고, 각 인자에 곱해진 가중치(W11, W12, W13, W14)는 학습 데이터를 기반으로하는 훈련 과정 또는 최적화 과정 등을 이용하여 최적으로 설정될 수 있다.And, the weights (W 11 , W 12 , W 13 , W 14 ) multiplied by each factor can be optimally set using a training process or optimization process based on learning data.

질소의 경우, 방향족 질소의 배위화, 즉 π-백(back) 결합 뒤에 있는 뚜렷한 메커니즘을 설명하기 위해 방향족 질소를 비방향족 질소와 구분하도록 하였다. 또한, 헴 철과 배위 결합을 형성하는데 약한 경향을 보이는 공액 시스템의 아미드(amide) 및 비고리 질소(nonring nitrogen)는 포함되지 않았다.In the case of nitrogen, aromatic nitrogen was distinguished from non-aromatic nitrogen in order to explain the distinct mechanism behind the coordination, or π-back bonding, of aromatic nitrogen. Additionally, amides and nonring nitrogens of the conjugated system, which show a weak tendency to form coordination bonds with heme iron, were not included.

도 3은 본 발명의 일 실시예에 따른 배위 결합 상태를 설명하기 위한 도면이다.Figure 3 is a diagram for explaining a coordinate bond state according to an embodiment of the present invention.

도 3의 (A)는, 후술할 수학식 3의 θ를 나타내는 것으로, 헴철(310)과 리간드 원자(320)사이의 결합시에, 이상적인 배위 벡터(312)와 위치 벡터(322) 사이의 각도를 나타내는 것으로, 그 각도가 작을수록 이상적인 배위 결합을 나타낸다.(A) in FIG. 3 represents θ in Equation 3, which will be described later, and is the angle between the ideal coordination vector 312 and the position vector 322 when binding between the heme iron 310 and the ligand atom 320. This indicates that the smaller the angle, the more ideal the coordination bond.

또한, 도 3의 (B)는 헴철과 리간드 원자 간의 거리 함수로서, 헴철과 리간드 원자 간의 거리에 따른 배위 결합 포텐셜의 크기를 나타낸다.Additionally, Figure 3 (B) is a function of the distance between the heme iron and the ligand atom, showing the size of the coordination potential according to the distance between the heme iron and the ligand atom.

본 발명에서는 각 원자 유형에 대한 적절한 수의 훈련 복합체를 보장하기 위해 4개의 원자 유형만 사용되었다. 네 가지 배위결합 에너지 항 각각은 다음의 수학식3과 같이 표현될 수 있다.In the present invention, only four atom types were used to ensure an appropriate number of training complexes for each atom type. Each of the four coordination energy terms can be expressed as Equation 3 below.

[수학식 3][Equation 3]

또한, E(r)은 수학식 4와 같이 정의된다.Additionally, E(r) is defined as Equation 4.

[수학식 4][Equation 4]

, (rL와 rFe는 각각 리간드 원자(320)와 헴철(310)을 나타내는 벡터임), K는 도 3의 (B)에 도시된 바와 같이, 오른쪽 선분의 기울기, R은 포텐셜이 최소가 되는 평평한 선분의 중간점, C는 포텐셜의 최소값을 나타내고, 예시적인 파라미터는 표에 나타난바와 같다. , (r L and r Fe are vectors representing the ligand atoms 320 and heme iron 310, respectively), K is the slope of the right line segment, as shown in (B) of Figure 3, and R is the minimum potential. The midpoint of the flat line segment, C, represents the minimum value of the potential, and exemplary parameters are as shown in the table.

한편, 국부적으로 기하학적인 유연성을 확보하고 불확실성을 고려하여 견고한 도킹 결과를 확보하기 위해, 개별 선형 세그먼트로 구성된 저해상도 기능 형태를 고려할 수 있다. 질소와 황과 관련된 배위결합 길이는 주로 각각 1.7~2.3Å 및 2.0~2.6Å 범위에서 발견되는 반면, 산소와 관련된 배위결합 길이는 잘 정의되어 있지 않는다.Meanwhile, in order to secure local geometric flexibility and secure docking results that are robust considering uncertainties, a low-resolution functional form consisting of individual linear segments can be considered. Coordination bond lengths associated with nitrogen and sulfur are mainly found in the range of 1.7 to 2.3 Å and 2.0 to 2.6 Å, respectively, while those associated with oxygen are not well defined.

철과 다른 원자 사이의 이중 계산 기여를 피하기 위해 금속과 다른 원자 유형 사이의 지식 기반 포센셜 항은 0으로 설정될 수 있다.To avoid double counting contributions between iron and other atoms, the knowledge-based potential terms between metals and other atom types can be set to zero.

질소의 비공유 전자쌍이 헴 철에 배위결합 할 때 수소 분리의 경우를 설명하기 위해 헴 철에 배위결합할 수 있는 질소에 부착된 수소와 금속 이온 사이의 반 데르 발스 상호작용은 0으로 설정될 수 있다.To account for cases of hydrogen dissociation when the lone pair of electrons on the nitrogen coordinates to the heme iron, the van der Waals interaction between the metal ion and the hydrogen attached to the nitrogen that can coordinate to the heme iron can be set to zero. .

도 4는 본 발명의 일 실시예에 따른 스코어링 함수를 생성하는 과정을 도시한 순서도이다.Figure 4 is a flowchart showing the process of generating a scoring function according to an embodiment of the present invention.

먼저, 스코어링 함수와 관련한 초기 파라미터를 제공하고, 이를 이용하여 복수의 도킹 포즈들이 생성되도록 한다(S410).First, initial parameters related to the scoring function are provided, and a plurality of docking poses are created using these (S410).

초기 파라미터는 수학식 1과 2를 통해 설명한 가중치(W11, W12, W13, W14)를 의미한다. 즉, 헴단백질에 의한 금속-리간드 배위 결합 에너지를 최적하기 위한 가중치로서, 초기에는 0.5 로 각각 설정되고, 이를 기초로 헴단백질-리간드 복합체에 대하여 복수의 도킹 포즈가 생성되도록 한다. 예를 들면, 총 100여개의 도킹 포즈가 생성된다. The initial parameters refer to the weights (W 11 , W 12 , W 13 , W 14 ) described through Equations 1 and 2. That is, as a weight for optimizing the metal-ligand coordination energy by the heme protein, each is initially set to 0.5, and based on this, a plurality of docking poses are generated for the heme protein-ligand complex. For example, a total of 100 docking poses are created.

한편, 수학식 1과 2에서 헴단백질과 관련한 가중치 외에 나머지 가중치는 종래 기술에 의해 확정된 값을 그대로 사용할 수 있다. 즉, 종래 설정된 가중치는 고정되고, 가중치(W11, W12, W13, W14)에 대해서만 최적화가 진행될 수 있다.Meanwhile, in Equations 1 and 2, other than the weights related to the heme protein, the remaining weights can use the values determined by the prior art. That is, the conventionally set weights are fixed, and optimization can be performed only for the weights (W 11 , W 12 , W 13 , W 14 ).

스코어링 함수의 학습을 위해, 훈련 세트와 검증 세트로 구성된 학습 데이터를 확보한다. 그리고, 학습 데이터를 이용하여 단백질과 리간드간의 다양한 도킹 포즈가 생성되도록 한다. 예를 들면, RCSB 단백질 정보 은행 (PDB)로부터 저분자 화합물-헴단백질의 결합구조를 가져와 서로 유사한 구조 (유사한 리간드 구조 및 단백질 서열이 유사한 구조)를 가지지 않도록 설계했다.To learn the scoring function, training data consisting of a training set and a validation set are secured. Then, various docking poses between the protein and the ligand are created using the learning data. For example, the binding structure of a low-molecular compound-heme protein was taken from the RCSB Protein Information Bank (PDB) and designed so that it does not have similar structures (structures with similar ligand structures and similar protein sequences).

그리고, 다음과 같은 기준으로 데이터를 추가하거나 제외할 수 있다. 아래 기준은 본 발명의 이해를 돕기 위한 예시로서, 본 발명의 범위를 제한하지 않는다.And, you can add or exclude data based on the following criteria. The standards below are examples to aid understanding of the present invention and do not limit the scope of the present invention.

- 첫 번째 사슬에 단 하나의 헴 분자만으로 복합체를 유지한다. - The complex is maintained with only one heme molecule in the first chain.

- 단 하나의 리간드만이 헴철 원자의 5 Å이내에결합된 복합체를 유지한다. - Only one ligand keeps the complex bound within 5 Å of the heme iron atom.

- 각 리간드의 중원자 수가 6개 미만인 착물은 제외한다.- Complexes with less than 6 heavy atoms in each ligand are excluded.

- 셀레늄 원자가 있는 리간드와 복합체를 제외한다.- Exclude complexes with ligands containing selenium atoms.

- 각 리간드가 여러 결합 포즈를 갖는 복합체를 제외한다.- Exclude complexes where each ligand has multiple binding poses.

- 여러 리간드가 동일한 결합에 있는 복합체를 제외한다(리간드-리간드 거리 <6Å ). - Exclude complexes where multiple ligands are in the same bond (ligand-ligand distance <6Å).

다음으로, 학습을 위한 대표 포즈들을 선택한다(S420).Next, representative poses for learning are selected (S420).

대표 포즈는 헴철과 리간드의 도킹 포즈 중 최적의 포즈를 의미하는 것으로, 미끼 포즈와 구별하기 위해 사용한다.The representative pose refers to the optimal pose among the docking poses of heme iron and ligand, and is used to distinguish it from the decoy pose.

예를 들어, 기준이 되는 단일한 네이티브 포즈와 최대 5개의 미끼 포즈들이 선택될 수 있다. 파라미터 최적화를 효율적으로 진행하기 위해서는 이러한 니어-네이티브 포즈와 미끼 포즈의 개수가 작은 것이 바람직하다. 만약, 1.8Å 미만의 크리스탈 포즈에서 RMSD를 갖는 니어-네이티브 포즈가 도킹 포즈 풀에 존재하지 않는 경우, 크리스탈 포즈를 교란(pertubing)하여, 기준 포즈가 생성될 수 있다. For example, a single native pose as a reference and up to five decoy poses can be selected. In order to efficiently perform parameter optimization, it is desirable for the number of near-native poses and decoy poses to be small. If a near-native pose with an RMSD in the crystal pose of less than 1.8 Å does not exist in the docking pose pool, a reference pose can be generated by pertubing the crystal pose.

다음으로, 경사 하강법을 이용하여 미끼 포즈 구별을 최대화하기 위한 최적 파라미터를 업데이트한다(S430).Next, the optimal parameters for maximizing decoy pose discrimination are updated using gradient descent (S430).

최적화를 위해, 수학식 5에 따른 목적 함수가 최소화되는 조건을 탐색한다.For optimization, the conditions under which the objective function according to Equation 5 is minimized are searched.

[수학식 5][Equation 5]

n: 훈련 세트에서 단백질-리간드 복합체의 개수를 나타냄n: represents the number of protein-ligand complexes in the training set

mj: 각 단백질-리간드 복합체에서 미끼 포즈들의 개수를 나타냄m j : represents the number of bait poses in each protein-ligand complex

Erefi: i번째 복합체의 니어-네이티브 기준 형태의 점수를 나타냄E refi : represents the score of the near-native reference form of the ith complex

Edecoyij: i번째 복합체에 대한 j번째 미끼 포즈의 점수를 나타냄E decoyij : represents the score of the jth decoy pose for the ith complex

각 가중치 요소는 음수가 되지 않도록 강제된다. 목적함수 F는 쌍별 순위 손실(pairwise ranking loss)이며, 이 함수를 최소화하면 미끼 포즈들보다 니어-네이티브 포즈들에 대해 더 낮은 에너지 점수가 적용된다. 목적 함수에 대한 최소값을 달성하는 조건을 만족하는 파라미터 세트는 다음 반복 라운드의 초기 파라미터로 선택되며, 새로운 파라미터를 이용하여 새로운 바인딩 포즈가 생성된다. 예를 들면, 검색 알고리즘 내에서 시도 리간드 포즈의 국소 최적화와 다음 뱅크 리간드 포즈 선별에 스코어링 함수가 사용되고, 파라미터가 변경되면 이 스코어링 함수가 변경되어, 새로운 도킹 포즈가 생성되거나, 도킹 포즈를 변형시킬 수 있다. Each weight factor is forced to be non-negative. The objective function F is the pairwise ranking loss, and minimizing this function results in lower energy scores for near-native poses than for decoy poses. The parameter set that satisfies the condition of achieving the minimum value for the objective function is selected as the initial parameters for the next iteration round, and a new binding pose is created using the new parameters. For example, within a search algorithm, a scoring function is used for local optimization of the trial ligand pose and selection of the next banked ligand pose, and when parameters are changed, this scoring function can be changed, creating a new docking pose, or modifying the docking pose. there is.

앞선 단계(s430)는 파라미터가 최적으로 수렴될때까지 반복 수행한다(S440).The previous step (s430) is repeatedly performed until the parameters are optimally converged (S440).

성능 수렴 조건은 도킹 시 가장 낮은 스코어를 갖는 리간드 포즈의 RMSD (실험적으로 얻어진 리간드 결정 구조의 좌표 사이의 중원자(heavy atom)의 3차원 좌표값 사이의 RMSD)가 2 미만인 실행의 비율이 더 이상 증가하지 않는 포화상태에 해당하는 경우를 수렴 기준으로 판단할 수 있다. 즉, 반복 횟수가 증가함에 따라 도킹 성공률이 유의미한 증가를 보이지 않을 경우 성능 수렴으로 판단할 수 있다. 예를 들어, 100개의 단백질-리간드 복합체 결정 구조에 대해서 단백질과 리간드를 각각 분리한 뒤 각각의 단백질과 그에 대응되는 리간드를 도킹하였을 때 87개의 단백질-리간드 도킹에서 도킹 결과로 출력된 리간드 포즈들 중 가장 낮은 스코어를 가지는 리간드 포즈의 RMSD가 2 미만일 경우 성공률은 87%로 계산된다. 이때, 스코어가 낮을수록 도킹 가능성이 높은 것이다. 예를 들어, 검증 세트에 도킹했을 때의 성공률이 라운드 1에서 70%, 라운드 2에서 72%, 라운드 3에서는 74 %인 데, 라운드 4에서는 성공률이 73%가 될 경우 라운드3에서 수렴 조건을 만족한 것으로 볼 수 있다. The performance convergence condition is that the proportion of runs in which the RMSD of the ligand pose with the lowest score upon docking (RMSD between the three-dimensional coordinates of the heavy atom and the experimentally obtained coordinates of the ligand crystal structure) is less than 2 is no longer 2. The case of non-increasing saturation can be judged as a convergence criterion. In other words, if the docking success rate does not show a significant increase as the number of repetitions increases, it can be judged as performance convergence. For example, for 100 protein-ligand complex crystal structures, when proteins and ligands were separated from each other and then each protein and its corresponding ligand were docked, among the ligand poses output as docking results from 87 protein-ligand docking If the RMSD of the ligand pose with the lowest score is less than 2, the success rate is calculated as 87%. At this time, the lower the score, the higher the possibility of docking. For example, if the success rate when docking to the validation set is 70% in round 1, 72% in round 2, and 74% in round 3, and the success rate is 73% in round 4, the convergence condition is satisfied in round 3. It can be seen as having been done.

그리고, 파라미터가 수렴되기 전까지는 파라미터를 변경하고, 변경된 파라미터에 맞게 도킹 포즈를 새롭게 생성한다(S450).Then, the parameters are changed until the parameters converge, and a new docking pose is created according to the changed parameters (S450).

예를 들어, 1회차 학습이 완료된 스코어링 함수의 출력과 앞서 소개한 CSA 검색 알고리즘을 이용하여, 학습 데이터의 훈련 세트와 검증 세트에 포함된 헴단백질에 대응되는 타겟 리간드를 새롭게 도킹하여, 각 단백질-리간드 복합체에 대해 복수의 리간드 포즈를 다시 획득할 수 있다.For example, using the output of the scoring function for which the first round of learning was completed and the CSA search algorithm introduced earlier, the target ligand corresponding to the heme protein included in the training and validation sets of the learning data was newly docked, and each protein- Multiple ligand poses can be reacquired for the ligand complex.

성능이 수렴된 것으로 결정된 경우에는 최종 결정된 최적화 파라미터를 기초로 스코어링 함수를 결정한다(S460).When it is determined that performance has converged, a scoring function is determined based on the finally determined optimization parameters (S460).

예를 들면, 확률적 가중치 평균 기법(SWA)의 개념에 따라, 적어도 15회의 반복에서 업데이트된 가중치 파라미터의 평균이 스코어링 함수의 최적 파라미터로 결정될 수 있다. For example, according to the concept of the stochastic weighted average technique (SWA), the average of the weight parameters updated in at least 15 iterations may be determined as the optimal parameter of the scoring function.

이와 같이, 결정된 스코어 함수를 이용하여, 헴단백질-리간드 복합체에 대해 최적의 도킹 포즈를 예측할 수 있다.In this way, using the determined score function, the optimal docking pose for the heme protein-ligand complex can be predicted.

도 5와 도 6은 본 발명의 일 실시예에 따른 스코어링 함수 생성 방법의 실험 결과를 도시한 것이다.Figures 5 and 6 show experimental results of a scoring function generation method according to an embodiment of the present invention.

훈련의 초기에는 각 파라미터의 값이 크게 변화하는 것을 볼 수 있으나, 반복 횟수가 증가할 수록 파라미터들이 특정 값을 기준으로 진동하며 동적평형을 이루는 것을 확인할 수 있다. 36회 부터 50 회째 까지의 계수값을 평균하여 최종 스코어링 함수를 결정하였다. 이와 같이 결정된 스코어링 함수의 성능 검증을 위해 벤치마크 테스트 세트 (총 50개의 저분자 화학물-헴단백질 결합 구조)를 이용하여 성능을 테스트하였고, 그 비교 결과는 도 6과 같다.At the beginning of training, you can see that the value of each parameter changes significantly, but as the number of repetitions increases, you can see that the parameters oscillate based on a specific value and achieve dynamic balance. The final scoring function was determined by averaging the coefficient values from the 36th to the 50th time. To verify the performance of the scoring function determined in this way, the performance was tested using a benchmark test set (a total of 50 small molecule chemical-heme protein binding structures), and the comparison results are shown in Figure 6.

도 6에 도시된 바와 같이, 본 발명에 따른 스코어링 함수를 사용하는 도킹 프로그램(GalaxyDock2-HEME)의 성공률이 상당히 높게 산출됨을 확인할 수 있었다.As shown in Figure 6, it was confirmed that the success rate of the docking program (GalaxyDock2-HEME) using the scoring function according to the present invention was calculated to be quite high.

본 발명의 일 실시예에 따른 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. The method according to an embodiment of the present invention may also be implemented in the form of a recording medium containing instructions executable by a computer, such as program modules executed by a computer. Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and non-volatile media, removable and non-removable media. Additionally, computer-readable media may include computer storage media. Computer storage media includes both volatile and non-volatile, removable and non-removable media implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules or other data.

본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.Although the methods and systems of the present invention have been described with respect to specific embodiments, some or all of their components or operations may be implemented using a computer system having a general-purpose hardware architecture.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The description of the present invention described above is for illustrative purposes, and those skilled in the art will understand that the present invention can be easily modified into other specific forms without changing the technical idea or essential features of the present invention. will be. Therefore, the embodiments described above should be understood in all respects as illustrative and not restrictive. For example, each component described as single may be implemented in a distributed manner, and similarly, components described as distributed may also be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the claims described below rather than the detailed description above, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.

100: 단백질-리간드 도킹 예측 장치
110: 프로세서
120: 메모리
130: 통신모듈
140: 데이터베이스
150: 통신 모듈
100: Protein-ligand docking prediction device
110: processor
120: memory
130: Communication module
140: database
150: communication module

Claims (7)

단백질-리간드 도킹 예측 장치에 있어서,
단백질-리간드 도킹 예측 프로그램을 저장한 메모리; 및
상기 단백질-리간드 도킹 예측 프로그램을 실행하는 프로세서를 포함하되,
상기 단백질-리간드 도킹 예측 프로그램은, 헴단백질-리간드 복합체의 배위 결합 에너지를 나타내는 성분을 포함하는 스코어링 함수 및 헴단백질과 리간드 포즈간의 다양한 결합 모드를 나타내는 형태 공간으로부터 헴단백질-리간드 복합체 후보를 탐색하는 검색 알고리즘을 포함하고,
상기 스코어링 함수는 헴단백질-리간드 복합체를 데이터를 입력하여 단백질-리간드 도킹 스코어를 출력하는 것이되, 니어-네이티브(near-native) 포즈와 미끼(decoy)포즈를 포함하는 학습 데이터를 기초로 반복 학습되어 결정된 것인, 단백질-리간드 도킹 예측 장치.
In the protein-ligand docking prediction device,
A memory storing a protein-ligand docking prediction program; and
A processor that executes the protein-ligand docking prediction program,
The protein-ligand docking prediction program searches for heme protein-ligand complex candidates from a scoring function including a component representing the coordinate binding energy of the heme protein-ligand complex and a conformational space representing various binding modes between the heme protein and the ligand pose. Includes a search algorithm,
The scoring function outputs a protein-ligand docking score by inputting data on the heme protein-ligand complex, and iteratively learns based on learning data including near-native poses and decoy poses. A protein-ligand docking prediction device that has been determined.
제 1 항에 있어서,
상기 스코어링 함수는 철(Fe) 이온과 비 방향족 질소(non-aromatic nitrogen) 사이의 포텐셜을 나타내는 제 1 인자, 철(Fe)이온과 방향족 질소(aromatic nitrogen)사이의 포텐셜을 나타내는 제 2 인자, 철(Fe)이온과 황(sulfur)사이의 포텐셜을 나타내는 제 3 인자 및 철(Fe)이온과 산소 원자(oxygen atom) 사이의 포텐셜을 나타내는 제 4 인자 중 적어도 하나 이상을 포함하고, 각 인자에 결합되는 가중치를 포함하는 수학식에 의해 정의되는 것인, 단백질-리간드 도킹 예측 장치.
According to claim 1,
The scoring function is a first factor representing the potential between iron (Fe) ions and non-aromatic nitrogen, a second factor representing the potential between iron (Fe) ions and aromatic nitrogen, and iron It contains at least one of the third factor representing the potential between the (Fe) ion and sulfur and the fourth factor representing the potential between the iron (Fe) ion and the oxygen atom, and binds to each factor. A protein-ligand docking prediction device defined by a mathematical equation including weights.
제 2 항에 있어서,
상기 스코어링 함수는
(a) 상기 가중치로 이루어진 초기 파라미터를 기초로 복수의 도킹 포즈가 생성되도록 하는 단계;
(b) 경사 하강법을 이용하여 미끼 포즈 구별을 최대화하는 최적 파라미터를 갱신하는 단계; 및
(c) 성능 수렴 조건을 만족할때까지 상기 (b) 단계를 반복 수행하고, 상기 성능 수렴 조건을 만족하는 최적 파라미터를 결정하는 단계에 의해 생성된 것이고,
상기 성능 수렴 조건은 검증 세트에서의 도킹시 성공율이 포화상태에 해당하는 경우인 것인, 단백질-리간드 도킹 예측 장치.
According to claim 2,
The scoring function is
(a) generating a plurality of docking poses based on initial parameters consisting of the weights;
(b) updating optimal parameters that maximize decoy pose discrimination using gradient descent; and
(c) repeatedly performing step (b) until the performance convergence condition is satisfied, and determining the optimal parameter that satisfies the performance convergence condition,
The performance convergence condition is a case where the success rate during docking in the validation set corresponds to saturation, a protein-ligand docking prediction device.
단백질-리간드 도킹 예측 장치의 단백질-리간드 도킹 예측 방법에 있어서,
헴단백질-리간드 복합체의 배위 결합 에너지를 나타내는 성분을 포함하는 스코어링 함수와 헴단백질과 리간드 포즈간의 다양한 결합 모드를 나타내는 형태 공간으로부터 헴단백질-리간드 복합체 후보를 탐색하는 검색 알고리즘을 포함하는 단백질-리간드 도킹 예측 프로그램이 제공되는 단계; 및
상기 스코어링 함수에 헴단백질-리간드 복합체를 데이터를 입력하여 단백질-리간드 도킹 스코어를 출력하는 단계를 포함하되,
상기 스코어링 함수는 니어-네이티브(near-native) 포즈와 미끼(decoy)포즈를 포함하는 학습 데이터를 기초로 반복 학습되어 결정된 것인, 단백질-리간드 도킹 예측 방법.
In the protein-ligand docking prediction method of the protein-ligand docking prediction device,
Protein-ligand docking, which includes a scoring function that includes a component representing the coordinate binding energy of the heme protein-ligand complex and a search algorithm that searches for heme protein-ligand complex candidates from a conformational space that represents various binding modes between the heme protein and the ligand pose. A prediction program is provided; and
Including inputting data of the heme protein-ligand complex into the scoring function and outputting a protein-ligand docking score,
The scoring function is determined by repeated learning based on learning data including near-native poses and decoy poses.
제 4 항에 있어서,
상기 스코어링 함수는 철(Fe) 이온과 비 방향족 질소(non-aromatic nitrogen) 사이의 포텐셜을 나타내는 제 1 인자, 철(Fe)이온과 방향족 질소(aromatic nitrogen)사이의 포텐셜을 나타내는 제 2 인자, 철(Fe)이온과 황(sulfur)사이의 포텐셜을 나타내는 제 3 인자 및 철(Fe)이온과 산소 원자(oxygen atom) 사이의 포텐셜을 나타내는 제 4 인자 중 적어도 하나 이상을 포함하고, 각 인자에 결합되는 가중치를 포함하는 수학식에 의해 정의되는 것인, 단백질-리간드 도킹 예측 방법.
According to claim 4,
The scoring function is a first factor representing the potential between iron (Fe) ions and non-aromatic nitrogen, a second factor representing the potential between iron (Fe) ions and aromatic nitrogen, and iron It contains at least one of the third factor representing the potential between the (Fe) ion and sulfur and the fourth factor representing the potential between the iron (Fe) ion and the oxygen atom, and binds to each factor. A protein-ligand docking prediction method defined by a mathematical equation including weights.
제 5 항에 있어서,
상기 스코어링 함수는
(a) 상기 가중치로 이루어진 초기 파라미터를 기초로 복수의 도킹 포즈가 생성되도록 하는 단계;
(b) 경사 하강법을 이용하여 미끼 포즈 구별을 최대화하는 최적 파라미터를 갱신하는 단계; 및
(c) 성능 수렴 조건을 만족할때까지 상기 (b) 단계를 반복 수행하고, 상기 성능 수렴 조건을 만족하는 최적 파라미터를 결정하는 단계에 의해 생성된 것이고,
상기 성능 수렴 조건은 검증 세트에서의 도킹시 성공율이 포화상태에 해당하는 경우인 것인, 단백질-리간드 도킹 예측 방법.
According to claim 5,
The scoring function is
(a) generating a plurality of docking poses based on initial parameters consisting of the weights;
(b) updating optimal parameters that maximize decoy pose discrimination using gradient descent; and
(c) repeatedly performing step (b) until the performance convergence condition is satisfied, and determining the optimal parameter that satisfies the performance convergence condition,
The protein-ligand docking prediction method wherein the performance convergence condition is when the success rate during docking in the validation set corresponds to saturation.
제 4 항 내지 제 6 항 중 어느 한 항에 따르는 단백질-리간드 도킹 예측 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 비일시적 컴퓨터 판독가능 기록체.A non-transitory computer-readable record on which a computer program for performing the protein-ligand docking prediction method according to any one of claims 4 to 6 is recorded.
KR1020230156345A 2022-11-17 2023-11-13 Method and apparatus for predicting protein-ligand docking for heme-protein KR102705722B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220154835 2022-11-17
KR20220154835 2022-11-17

Publications (2)

Publication Number Publication Date
KR20240073770A true KR20240073770A (en) 2024-05-27
KR102705722B1 KR102705722B1 (en) 2024-09-12

Family

ID=91332401

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230156345A KR102705722B1 (en) 2022-11-17 2023-11-13 Method and apparatus for predicting protein-ligand docking for heme-protein

Country Status (1)

Country Link
KR (1) KR102705722B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200128710A (en) 2018-03-05 2020-11-16 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 A method for improving binding and activity prediction based on machine learning and molecular simulation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200128710A (en) 2018-03-05 2020-11-16 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 A method for improving binding and activity prediction based on machine learning and molecular simulation

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
H. Lee 외, 'GalaxyPepDock: a protein-peptide docking tool based on interaction similarity and energy optimization', Nucleic Acids Research, 43(Web Server issue):W431-W435. (2015.05.12.) *
I. Joung 외, 'Non-sequential protein structure alignment by conformational space annealing and local refinement', PLoS One, 14(1):e0210177. (2019.01.30.) *
J. Yang 외, "GalaxyDock3: Protein-Ligand Docking That Considers the Full Ligand Conformational Flexibility", Journal of Computational Chemistry, 40(31):2739-2748 (2019.08.19.)* *
U. F. Rohrig 외, "Docking to heme proteins", Journal of Computational Chemistry, 30(14):2305-2315 (2009.08.24.)* *

Also Published As

Publication number Publication date
KR102705722B1 (en) 2024-09-12

Similar Documents

Publication Publication Date Title
Fu et al. Insights into the molecular mechanisms of protein‐ligand interactions by molecular docking and molecular dynamics simulation: a case of oligopeptide binding protein
Mater et al. Deep learning in chemistry
Gao et al. Incorporation of solvent effect into multi-objective evolutionary algorithm for improved protein structure prediction
Cortés et al. A path planning approach for computing large-amplitude motions of flexible molecules
Morris et al. AutoDock4 and AutoDockTools4: Automated docking with selective receptor flexibility
Kirillova et al. An NMA‐guided path planning approach for computing large‐amplitude conformational changes in proteins
Olson et al. Basin hopping as a general and versatile optimization framework for the characterization of biological macromolecules
CN111656375A (en) Method and system for quantum computation enabled molecular de novo computation simulation using quantum classical computation hardware
Gokcan et al. Learning molecular potentials with neural networks
US20220406404A1 (en) Adversarial framework for molecular conformation space modeling in internal coordinates
CN103886225A (en) Method for designing proteins on basis of polarizable force fields and pso (particle swarm optimization)
Zhang et al. Pareto dominance archive and coordinated selection strategy-based many-objective optimizer for protein structure prediction
Zhang et al. A universal framework for accurate and efficient geometric deep learning of molecular systems
KR102705722B1 (en) Method and apparatus for predicting protein-ligand docking for heme-protein
Sun et al. Tetramer protein complex interface residue pairs prediction with LSTM combined with graph representations
Talluri Algorithms for protein design
KR102650868B1 (en) Scoring function learning method and apparatus for predicting protein-ligand docking using the same
Vittorio et al. Addressing docking pose selection with structure-based deep learning: Recent advances, challenges and opportunities
Oduguwa et al. Multi-objective optimisation of the protein-ligand docking problem in drug discovery
Yang et al. Prompt-based 3d molecular diffusion models for structure-based drug design
Prabhakar et al. Predicting residue cooperativity during protein folding: A combined, molecular dynamics and unsupervised learning approach
Carrera et al. Towards the automated engineering of a synthetic genome
KR102705719B1 (en) Method and apparatus for protein-ligand docking using information of given reference complex structure
KUMAR et al. Bioinformatics Tools to Study Homology Modeling
Xia et al. APIP: Attention-based Protein Representation Learning for Protein-Ligand Interface Prediction

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right