KR20210026541A - 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템 - Google Patents

호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템 Download PDF

Info

Publication number
KR20210026541A
KR20210026541A KR1020190107481A KR20190107481A KR20210026541A KR 20210026541 A KR20210026541 A KR 20210026541A KR 1020190107481 A KR1020190107481 A KR 1020190107481A KR 20190107481 A KR20190107481 A KR 20190107481A KR 20210026541 A KR20210026541 A KR 20210026541A
Authority
KR
South Korea
Prior art keywords
compound
activity
homology
neural network
data
Prior art date
Application number
KR1020190107481A
Other languages
English (en)
Inventor
조경민
이상윤
하현수
정선순
박주영
Original Assignee
주식회사 에일론
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에일론 filed Critical 주식회사 에일론
Priority to KR1020190107481A priority Critical patent/KR20210026541A/ko
Publication of KR20210026541A publication Critical patent/KR20210026541A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 타겟 단백질과 화합물의 정보를 호몰로지(homology)를 통해 다차원 이미지 벡터로 변환하여 특징 디스크립터를 생성하고, 특징 디스크립터를 이용하여 인공신경망을 통해 단백질의 기질 결합 위치와 화합물의 상보적 유사성을 학습시키고 화합물 활성을 예측하는, 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 관한 것으로서, 타겟 단백질에 대한 화합물의 활성 또는 비활성의 활성 데이터를 수집하는 활성데이터 수집부; 단백질 또는 화합물의 화학적 구조에서의 원자 위치에 대한 3차원 점 데이터를 형성하는 3D데이터 형성부; 단백질 또는 화합물의 3차원 점 데이터에 대해 호몰로지(homology)을 적용하여 디스크립터를 산출하는 디스크립터 산출부; 단백질의 디스크립터, 및 화합물의 디스크립터, 및, 활성 데이터를 이용하여, 신경망 모델을 학습시키는 모델 학습부; 및, 신경망 모델을 이용하여 검사대상 단백질에 대한 검사대상 화합물의 활성을 예측하는 활성 예측부를 포함하는 구성을 마련한다.
상기와 같은 시스템에 의하여, 인공지능을 이용해 단백질과 화합물의 결합 정보를 학습하여 그 활성을 예측함으로써, 실험적으로 테스트할 화합물을 빠르게 선정하여 유효물질 발굴에 걸리는 시간과 비용을 대폭 단축시킬 수 있다.

Description

호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템 { A system of predicting compound activity for target protein using Homology and artificial neural network }
본 발명은 신약개발에 있어서 초기단계인 유효물질 발굴 단계를 빠른 시간 내에 효율적으로 처리하기 위하여, 인공지능을 이용해 단백질과 화합물의 결합 정보를 학습하여, 주어진 단백질과 화합물이 결합하여 활성을 나타낼 수 있는지를 판단하고 예측하는, 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 관한 것이다.
특히, 본 발명은 타겟 단백질과 화합물의 정보를 호몰로지(homology)를 통해 다차원 이미지 벡터로 변환하여 특징 디스크립터를 생성하고, 특징 디스크립터를 이용하여 인공신경망을 통해 단백질의 기질 결합 위치와 화합물의 상보적 유사성을 학습시키고 화합물 활성을 예측하는, 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 관한 것이다.
일반적으로, 유효물질 또는 선도물질 발굴과정은 새로운 약물의 개발을 위한 기초연구부터 임상 그리고 허가에 이르는 여러 단계의 신약개발 사슬에서 극초기 단계이며 고품질의 선도물질은 임상 성공을 위한 기초를 다져주는 출발점이다.
신약개발은 일반적으로 개발하고자 하는 질병의 타깃 선정으로 시작되고 알려진 화합물을 스크리닝하고, 초기 유효물질을 고르고 검증하고, 간단한 최적화 과정을 거처서 선도물질을 선정하게 된다. 선정된 선도물질은 의약 화학의 여러가지 방법을 통하여 후보물질로 만들어지고 임상실험에 사용된다. 이러한 이유로 유효물질 또는 선도물질의 선정과정은 후보물질의 임상에서의 약리활성 및 독성에 관계되는 화합물의 구조적 특성의 출발점이고, 신약개발 사슬에서 중요한 단계이다.
종래기술에 따른 신약개발 발굴 과정은, 대량의 화합물의 약효 스크리닝 과정부터 출발한다. 즉, 이를 통해 도출해낸 초기 약리활성을 지니는 공통 구조를 유효물질로 하여, 구조적으로 유사한 화합물이나 유도체를 합성하여 약리활성도를 증가시키며 독성이나 부작용을 줄이고 체내 약물 전달 시스템의 문제를 해결한다. 그러나 이러한 화합물의 약효 스크리닝 과정은 근본적인 경험적 방법으로서 결과에 대한 사전 예측 없이 진행되기 때문에, 약효시험 비용이나 화합물 확보 및 관리비용 측면에서 막대한 비용과 시간이 필요하다는 문제점이 있다.
특히, 최근에는 유효물질을 찾기 위해 다중 스크리닝법이 적용되고 있다. 특정 타겟 단백질을 대상으로 천연물이나 화학 합성물 라이브러리를 스크리닝함으로써 타겟 단백질에 반응(결합 또는 발현)하는 후보물질을 동정하고 있다. 이러한 방법은 다양한 물질을 대상으로 스크리닝 할 수 있으므로 최적의 후보물질을 동정할 수 있는 장점이 있는 반면 시간과 경비가 많이 드는 단점이 있다.
즉, 유효물질 발굴을 위해서는 수많은 화합물 중에서 해당 질병의 기전을 조절하는 타겟 단백질에 활성을 나타내는 화합물을 찾아내야 한다. 그러나, 기 존재하는 화합물 또는 새롭게 합성 가능한 화합물의 수를 고려하면, 타겟 단백질에 어떤 화합물이 활성을 나타내는지를 실험적으로 찾아내는 것은 많은 시간과 비용이 소모된다.
이러한 문제를 해결하고자, 표적 단백질의 3차 구조가 밝혀진 경우에는 분자동역학 시뮬레이션 등 컴퓨터 시뮬레이션을 통하여 표적부위의 구조에 결합할 수 있는 후보물질을 효율적으로 동정하는 기술이 제시되고 있다[특허문헌 1]. 그러나 상기 선행기술은 유효물질 또는 선도물질을 도출하는 과정에서 연구자의 경험에 따라 결과가 달라질 수 있다는 문제점이 있다.
또한, 약리활성을 갖는 화합물들의 정보를 수집하여 약리활성 별로 그룹핑하고, 유사 약리활성 그룹 내 화합물들을 최소 화학적 기능 단위로 조각화하여 조각구조들을 도출하는 기술이 제시되고 있다[특허문헌 2]. 즉, 조각구조가 선도물질이 되어, 이를 기반으로 한 약물발견 및 가상 스크리닝이 사용된다. 그러나 상기 선행기술은 화합물의 약리 활성 정보가 필요하므로 이미 실험된 화합물들에 대해서만 분석이 가능하며, 조각구조로부터 다시 스크리닝 작업을 수행해야 한다는 문제점이 있다.
한국 공개특허공보 제10-2018-0058648호(2018.06.01.공개) 한국 공개특허공보 제10-2019-0000167호(2019.01.02.공개)
http://dude.docking.org/
본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 타겟 단백질과 화합물의 정보를 호몰로지(homology)를 통해 다차원 이미지 벡터로 변환하여 특징 디스크립터를 생성하고, 특징 디스크립터를 이용하여 인공신경망을 통해 단백질의 기질 결합 위치와 화합물의 상보적 유사성을 학습시키고 화합물 활성을 예측하는, 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템을 제공하는 것이다.
또한, 본 발명의 목적은 대수적 토폴로지(Algebraic Topology)를 바탕으로 한 퍼시스턴스 호몰로지(Persistence Homology) 계산을 통해, 화합물과 타겟 단백질의 원소정보를 표준화된 다차원 벡터로 표현하여 특징 디스크립터를 생성하는, 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템을 제공하는 것이다.
상기 목적을 달성하기 위해 본 발명은 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 관한 것으로서, 타겟 단백질에 대한 화합물의 활성 또는 비활성의 활성 데이터를 수집하는 활성데이터 수집부; 단백질 또는 화합물의 화학적 구조에서의 원자 위치에 대한 3차원 점 데이터를 형성하는 3D데이터 형성부; 단백질 또는 화합물의 3차원 점 데이터에 대해 호몰로지(homology)을 적용하여 디스크립터를 산출하는 디스크립터 산출부; 단백질의 디스크립터, 및 화합물의 디스크립터, 및, 활성 데이터를 이용하여, 신경망 모델을 학습시키는 모델 학습부; 및, 신경망 모델을 이용하여 검사대상 단백질에 대한 검사대상 화합물의 활성을 예측하는 활성 예측부를 포함하는 것을 특징으로 한다.
또한, 본 발명은 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 있어서, 상기 3D데이터 형성부는 단백질과 화합물의 3차원 결합 구조에서, 각각 단백질과 화합물의 3차원 점 데이터를 형성하는 것을 특징으로 한다.
또한, 본 발명은 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 있어서, 상기 3D데이터 형성부는 화합물 또는 단백질의 3차원 점 데이터를 형성할 때, 각 원자별로 3차원 점 데이터를 형성하는 것을 특징으로 한다.
또한, 본 발명은 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 있어서, 상기 3D데이터 형성부는 단백질의 경우, 화합물과의 결합 부위에서 소정의 거리 내에 위치한 원자만을 추출하여 3차원 점 데이터를 형성하는 것을 특징으로 한다.
또한, 본 발명은 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 있어서, 상기 디스크립터 산출부는 생성된 3차원 점 데이터에 호몰로지를 적용하여 퍼시스턴스 정보를 추출하고, 추출된 퍼시스턴시 정보를 퍼시스턴스 다이어그램으로 표시하고, 퍼시스턴스 다이어그램에서 호몰로지 이미지를 생성하여 디스크립터로 생성하는 것을 특징으로 한다.
또한, 본 발명은 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 있어서, 상기 디스크립터 산출부는 상기 퍼시스턴스 정보를 생성자의 차원, 해당 생성자의 생성 시기, 및 해당 생성자의 소멸 시기로 구성하고, 각 퍼시스턴스 정보를 상기 퍼시스턴스 다이어그램 상의 점으로 표시하되, 생성 시기와 소멸 시기를 다이어그램의 위치 좌표로 하고, 차원 값을 점의 색상 값으로 설정하는 것을 특징으로 한다.
또한, 본 발명은 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 있어서, 상기 디스크립터 산출부는 상기 퍼시스턴스 다이어그램에 가우시안 매핑을 수행하여 호몰로지 이미지를 생성하는 것을 특징으로 한다.
상술한 바와 같이, 본 발명에 따른 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 의하면, 인공지능을 이용해 단백질과 화합물의 결합 정보를 학습하여 그 활성을 예측함으로써, 실험적으로 테스트할 화합물을 빠르게 선정하여 유효물질 발굴에 걸리는 시간과 비용을 대폭 단축시킬 수 있는 효과가 얻어진다.
또한, 본 발명에 따른 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 의하면, 호몰로지(Homology) 계산에 필요한 자료는 각 점과 그 점의 위치정보인데, 각 단백질 또는 화합물에서 계산에 사용되는 점의 개수가 적기 때문에, 각 단백질 또는 화합물에 대한 구조적 정보를 빠르게 분류하여 표현할 수 있는 효과가 얻어진다. 즉, 본 발명에서 계산에 쓰이는 점의 개수는 평균 30개 정도로서, 이에 대한 계산은 1초미만이 소요되며, 실제 약 50만개의 자료를 하루 안에 생성 가능하다.
또한, 본 발명에 따른 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 의하면, 특정 원소 별 호몰로지(Homology)를 계산함으로써, 기존의 구조적 특성을 반영할 뿐만 아니라, 화합물과 타겟 단백질이 가지는 화학적인 특성을 어느 정도 표현할 수 있는 효과가 얻어진다. 이를 통해, 적은 학습 데이터로도 보다 효과적이고 효율적으로 신경망을 학습시킬 수 있고, 예측 결과를 보다 정확하도록 향상시킬 수 있다.
또한, 본 발명에 따른 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 의하면, 3차원 점 데이터 집합에 대해 적용하도록 구성함으로써, 맥락에 따라 다양한 설정에서 3차원 점 데이터로 변환된 자료에 대한 이미지 자료를 생성할 수 있는 효과가 얻어진다. 이를 통해 분류 학습 또한 가능하다.
도 1은 본 발명을 실시하기 위한 전체 시스템의 구성도.
도 2는 본 발명에 따른 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템의 구성에 대한 블록도.
도 4은 본 발명의 일실시예에 따른 퍼시스턴스 다이어그램에 대한 예시 그래프.
도 5는 본 발명의 일실시예에 따른 호몰로지 이미지에 대한 예시도.
도 6는 본 발명의 실험에 따른 신경망 모델의 평가(evaluation) 결과를 나타낸 표.
도 7은 본 발명의 실험에 따른 신경망 모델의 테스트(test) 결과를 나타낸 표.
이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.
또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.
먼저, 본 발명을 실시하기 위한 전체 시스템의 구성의 예들에 대하여 도 1을 참조하여 설명한다.
도 1(a)와 1(b)에서 보는 바와 같이, 본 발명에 따른 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템은 네트워크 상의 서버 시스템 또는 컴퓨터 단말 상의 프로그램 시스템으로 실시될 수 있다.
도 1(a)와 같이, 본 발명의 실시를 위한 전체 시스템의 일례는 분석 단말(10)과 활성 예측 시스템(30)으로 구성되고 서로 네트워크(20)로 연결된다. 또, 필요한 데이터를 저장하기 위한 데이터베이스(40)를 더 구비할 수 있다.
분석 단말(10)은 신약개발 연구원 등 사용자가 이용하는 PC, 노트북, 넷북, PDA, 모바일 등의 통상의 컴퓨팅 단말기이다. 사용자는 사용자 단말(10)을 통해 타겟 단백질 및 화합물의 3차원 구조 또는 화학적 구조 등 데이터를 활성 예측 시스템(30)으로 전달하거나, 그 활성 예측 결과 값을 활성 예측 시스템(30)으로부터 수신한다.
활성 예측 시스템(30)은 통상의 서버로서 네트워크(20)에 연결되어 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측을 지원하는 서비스를 제공한다. 한편, 활성 예측 시스템(30)은 상기 각 서비스를 인터넷 상의 웹페이지로 제공하는 웹서버 또는 웹어플리케이션 서버 등으로 구현될 수 있다. 또한, 활성 예측 시스템(30)은 클라우드 시스템으로 구현되어, 클라우드 기반으로 학습이나 분석 기능을 수행하고 활성 예측 서비스를 제공할 수 있다.
데이터베이스(40)는 활성 예측 시스템(30)에서 필요한 데이터를 저장하는 통상의 저장매체로서, 타겟 단백질 또는 화합물의 3차원 구조 또는 화학적 구조에 대한 데이터, 타겟 단백질과 화합물 간의 결합 등 활성 데이터를 저장한다.
한편, 데이터베이스(40)는 이미 구축된 천연물이나 화학 합성물 라이브러리의 데이터를 가져와서 구축될 수 있다.
구체적으로, 데이터베이스(40)는 활성 데이터를 저장하는 활성데이터 스토리지(41), 디스크립터를 저장하는 디스크립터 스토리지(42), 3D데이터 스토리지(43), 및, 신경망 모델(44)로 구성될 수 있다. 그러나 상기 데이터베이스(40)의 구성은 바람직한 일실시예일 뿐이며, 구체적인 시스템을 개발하는데 있어서, 접근 및 검색의 용이성 및 효율성 등을 감안하여 데이터베이스 구축이론에 의하여 다른 구조로 구성될 수 있다.
한편, 활성 예측 시스템(30)은 서버와 클라이언트로 구성된 서버-클라이언트 시스템으로 구성될 수 있다. 즉, 활성 예측 시스템(30)의 주요 학습이나 분석 기능은 서버에 구축되고, 사용자 인터페이스 또는 분석을 위한 간단한 전처리 작업 등은 분석 단말(10)에 클라이언트 모듈로 구축될 수 있다. 서버와 클라이언트 간의 작업 분담은 통상의 서버-클라이언트 구축 이론에 따라 다양한 형태로 구현될 수 있다.
또한, 활성 예측 시스템(30)에서 학습 기능이나 예측 기능을 엔진 모듈로 구축되고, 분석 단말(10)에 설치된 클라이언트 서비스 모듈이 엔진 모듈을 이용하여, 사전에 수집된 데이터로 인공지능 모델을 학습시키고, 학습된 모델을 통해 타겟 단백질에 대한 화합물의 활성을 예측 서비스를 제공할 수 있다. 이 경우, 분석 단말(10)은 또 다른 서버로서 역할을 수행할 수 있다.
또한, 도 1(b)와 같이, 본 발명의 실시를 위한 전체 시스템의 다른 예는 컴퓨터 단말(13)에 설치되는 프로그램 형태의 활성 예측 시스템(30)으로 구성된다. 즉, 활성 예측 시스템(30)의 각 기능들은 컴퓨터 프로그램으로 구현되어 컴퓨터 단말(10)에 설치되어, 컴퓨터 단말(10) 상의 프로그램 시스템으로 실시될 수 있다. 컴퓨터 단말(10)에 설치된 프로그램은 하나의 프로그램 시스템(30)과 같이 동작할 수 있다. 한편, 활성 예측 시스템(30)에서 필요한 데이터들은 컴퓨터 단말(10)의 하드디스크 등 저장공간에 저장되어 이용된다.
한편, 다른 실시예로서, 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템은 프로그램으로 구성되어 범용 컴퓨터에서 동작하는 것 외에 ASIC(주문형 반도체) 등 하나의 전자회로로 구성되어 실시될 수 있다. 또는 화합물 활성을 예측하는 것만을 전용으로 처리하는 전용 컴퓨터 단말(10)로 개발될 수도 있다. 이를 활성 예측 시스템(30)라 부르기로 한다. 그 외 가능한 다른 형태도 실시될 수 있다.
다음으로, 본 발명의 일실시예에 따른 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템을 도 2를 참조하여 설명한다.
도 2에서 보는 바와 같이, 본 발명에 따른 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템(30)은 타겟 단백질에 대한 화합물의 활성 또는 비활성 결과를 수집하는 활성데이터 수집부(31), 단백질 또는 화합물에 대한 분자 또는 원자 구조의 3차원 데이터를 형성하는 3D데이터 형성부(32), 3차원 데이터에 대해 호몰로지(homology)를 적용하여 디스크립터를 산출하는 디스크립터 산출부(33), 단백질 및 화합물의 디스크립터, 및, 활성데이터 데이터를 이용하여, 신경망 모델을 학습시키는 모델 학습부(34), 검사대상 단백질(또는 질의 단백질)과 검사대상 화합물(또는 질의 화합물)에 대하여 신경망 모델을 이용하여 활성을 예측하는 활성 예측부(35)로 구성된다.
먼저, 활성데이터 수집부(31)은 각 타겟 단백질에 대한 각 화합물의 활성 데이터를 수집한다.
활성 데이터는 특정 타겟 단백질(또는 표적 단백질) Pi에 대하여 특정 화합물 Cj이 활성 화합물(active)인지, 또는 비활성 화합물(inactive)인지를 나타내는 데이터이다. 즉, 활성 데이터는 { < Pi, Cj, Rij > }로 구성된다. 이때, Rij 는 활성화 또는 비활성화 값(이진 값)을 갖는다.
한편, 활성 데이터는 타겟 단백질에 대한 화합물의 활성 정도를 나타내는 활성값으로 표시될 수 있다. 이 경우, 사전에 정해진 기준값(또는 임계값)을 기준으로 활성 또는 비활성으로 구분될 수 있다.
활성화(active)는 타겟 단백질 Pi에 대하여 특정 화합물 Cj가 결합하였다는 것을 의미하고, 비활성화(inactive)는 그러하지 않다는 것을 나타낸다.
바람직하게는, 활성데이터 수집부(31)은 사전에 구축된 활성데이터의 데이터셋으로부터 활성데이터를 수집할 수 있다.
일례로서, DUD-E(A Database of Useful Decoys: Enhanced)[비특허문헌 1]에서 제공하는 데이터셋을 사용한다. DUD-E 데이터셋은 총 102개의 타겟 단백질에 대한 총 22,146개의 활성(active) 화합물(타겟 단백질당 평균 217개의 활성 화합물)과, 비활성(inactive) 화합물 대신 각 활성(active)에 대해 5~60여개씩 만들어진 디코이(decoy) 화합물을 제공한다. 이 중 4개의 타겟 단백질은 부적합성 등의 이유로 제거하였고, 남은 98개 단백질에 대한 데이터가 본 발명의 실험에 사용되었다. DUD-E 데이터셋의 용도는 벤치마크 데이터셋이다.
디코이 화합물은 이론상 비활성 화합물일 가능성이 높은 구조의 화합물로서, 현실적으로 비활성 화합물에 대한 데이터를 수집하기 곤란한 점을 반영한다. 즉, 활성 화합물에 대비되어 구별되게 하기 위한 목적으로 표준 데이터 설계자들이 구성한 화합물 데이터이다. 디코이 화합물은 실질적으로는 비활성 화합물에 준하는 용도로 사용된다.
다음으로, 3D데이터 형성부(32)는 단백질 또는 화합물의 화학적 구조에서의 원자 위치에 대한 3차원 점 데이터(또는 포인트 데이터)를 형성한다. 이때, 단백질 또는 화합물은 앞서 수집된 활성 데이터에 속하는 타겟 단백질 또는 화합물들이다.
바람직하게는, 3D데이터 형성부(32)는 단백질 또는 화합물의 몰(mol) 파일로부터, 화학적 결합 구조의 3차원 포인트 데이터를 형성한다. 각 포인트는 3차원 상의 원자 위치를 나타낸다. 또한, 바람작하게는, 3D데이터 형성부(32)는 단백질과 화합물이 결합된 상태에서의 원자 위치를 3차원 점 데이터로 추출한다.
이때, 몰(mol) 파일은 사전에 제공되는(만들어진) 데이터를 이용하거나, 가상 결합을 통해 생성된 데이터를 이용한다. 즉, 화합물 또는 단백질이 실제 실험을 통한 결정구조(crystal structure)를 가지고 있는 경우, 화합물 또는 단백질의 각 원소의 위치정보가 몰(mol) 파일 형태로 제공된다. 이 경우, 제공된 몰(mol) 파일을 사용한다.
또한, 화학 결합 시뮬레이션 도구(예를 들어, 오토도킹 autodocing 프로그램) 등을 이용하여, 화합물과 단백질을 가상으로 결합하고, 결합된 가상 3차원 화학적 구조로부터 3차원 점 데이터를 형성한다. 특히, 가상 결합을 한 후, 스코링 함수(scoring function)를 통한 최적의 포지셔닝(최적의 결합 상태)을 얻은 후, 이때의 위치정보를 몰(Mol) 파일로 저장한다.
특히, 3D데이터 형성부(32)는 단백질과 화합물의 3차원 결합 구조에서, 각각 단백질과 화합물의 3차원 점 데이터를 추출한다. 바람직하게는, 단백질 또는 화합물의 각 원자 별로 별도의 3차원 점 데이터를 추출한다. 또한, 더욱 바람직하게는, 주요 원자에 대해서만, 각 원자 별로 3차원 점 데이터를 추출하고, 주요 원자 및 나머지 모든 원자에 대하여 3차원 점 데이터를 추출할 수도 있다.
일례로서, 단백질은 C(탄소), N(질소), O(산소), S(황)의 4가지 원자로 구성된다. 따라서 단백질의 각 원자별로 4개의 3차원 점 데이터를 추출한다. 화합물은 C(탄소), N(질소), O(산소)의 주요 원자와, 그외 다양한 원자를 포함할 수 있다. 따라서 화합물은 C(탄소), N(질소), O(산소)의 주요 원자에 대해서, 각 원자별로 3개의 3차원 점 데이터를 추출하고, 주요 원자 및 그외 모든 원자의 3차원 점 데이터를 추출한다. 따라서 따라서 전체적으로, 모두 8개의 3차원 점 데이터를 추출한다.
또한, 바람직하게는, 3D데이터 형성부(32)는 단백질의 3차원 점 데이터를 추출할 때, 화합물과 결합하는 단백질의 부위 근처의 원자 위치만을 추출하여 3차원 점 데이터를 추출한다. 즉, 화합물과의 결합 부위에서 소정의 거리 내에 위치한 원자들의 위치만을 추출하여 3차원 점 데이터를 형성한다.
다음으로, 디스크립터 산출부(33)는 단백질 또는 화합물의 3차원 점 데이터에 대해 호몰로지(homology)를 이용하여 디스크립터(descriptor)를 산출한다.
3차원 점 데이터는 3D데이터 형성부(32)에서 형성한 단백질 또는 화합물의 원자 또는 분자 구조에 대한 3차원 데이터이다. 즉, 3차원 점 데이터는 유한개의 3차원 상의 점 데이터(또는 포인트 데이터)들의 집합이다. 각 포인트는 원자의 위치를 나타낸다.
즉, 3차원 점 데이터에 호몰로지(homology)를 적용하여, 2차원의 퍼시스턴스 다이어그램(persistence diagram)를 추출하고, 퍼시스턴스 다이어그램을 2차원 이미지로 변환하여 디스크립터로 사용한다.
먼저, 3차원 점 데이터에 호몰로지를 계산하여 퍼시스턴스 정보를 추출한다.
즉, 실수인 변수 r값을 준 다음, 이 값을 순차적으로 0부터 증가시켜가며 점 집합의 연결 상태를 변화시킨다.
두 점의 연결상태는 다음과 같이 판단한다. 각 점을 원점으로 하는 반지름이 r인 3차원 구를 그린다. 각 r에 대해 다음을 판단한다.
만약 두 구가 교차하는 부분이 있을 경우 두 점은 연결된 것으로 간주한다. 아닐 경우에는 연결되지 않은 것으로 간주한다. 두 점이 연결되었을 경우 두 점을 잇는 변을 생성한다.
만약 세 변이 서로 연결되어 삼각형을 이룰 경우, 이를 변으로 하는 삼각형을 만든다.
만약 네 삼각형이 서로 연결되어 사면체를 이룰 경우, 이를 면으로 하는 속이 꽉 찬 사면체를 만든다.
위 과정을 통해 각 r에 대해, 주어진 점 데이터로부터, 0차원 복합체(simplex)(점), 1차원 복합체(변), 2차원 복합체(삼각형), 3차원 복합체(사면체)로 구성된 복합체(simplicial complex)를 얻는다.
즉, 주어진 r에서의 복합체 M에 대한 호몰로지 Hr(M)를 계산한다.
도 3의 호몰로지에서, 0차원 복합체는 점으로서 18개, 1차원 복합체는 변으로서 23개, 2차원 복합체는 삼각형으로서 7개, 3차원 복합체는 사면체로서 1개가 생성됨을 알 수 있다.
다음으로, 각 차원 복합체에 대한 호몰로지 그룹을 생성한다. 즉, 0차원 호몰로지 그룹, 1차원 호몰로지 그룹, 및 2차원 호몰로지 그룹을 생성한다.
그리고 각 차원의 호몰로지 그룹에 대해 생성자의 개수를 구한다. 호몰로지 그룹은 유한 개의 생성자에 의해 만들어지는 그룹이다. 호몰로지 그룹의 생성자 또는 생성자들은 해당 차원의 복합체의 구성 형태에 따라 새로 생성되거나 소멸된다.
호몰로지 그룹은 해당 차원에서 싸이클(cycle)을 형성하여 경계가 없는 복합체들로 구성된다. 즉, 0차원에서는 각 점이 싸이클을 형성하여, 0차원 호몰로지 그룹은 각 점들로 구성된다. 1차원 호몰로지 그룹은 링(ring)을 형성하는 1차원 복합체(변)들로 구성된다. 또한, 2차원 호몰로지 그룹은 내부 공간이 있는 폐곡면 형태로 연결되는 2차원 복합체(삼각형)들로 구성된다. 생성자는 해당 차원에서의 각 싸이클에 해당되며, 생성자의 개수는 해당 차원에서의 싸이클 개수를 나타낸다.
한편, 도 3에서 보는 바와 같이, 2차원(상위차원)의 복합체(삼각형)를 구성하는 1차원(하위 차원) 복합체(변)들은 링을 형성한다. 그러나, 호몰로지 그룹은 상위 차원의 복합체를 구성하는 하위 차원의 복합체 집합에 의해 쿼오션트 그룹(quotient)으로 형성되므로, 해당 하위 차원의 복합체들은 하나의 복합체로 합동(congruence)된다. 따라서 2차원 복합체(삼각형)를 형성하는 1차원 복합체(변)들이 링을 형성하더라도 1차원 호몰로지 그룹에서 제외된다.
한편, 특정 r에서 새로운 생성자에 대한 생성 시기(rS)를 기록하고, 이 생성자가 사라질 때 그 생성자에 대한 소멸 시기(rE)를 기록한다.
이 기록들을 모두 모아 다이어그램으로 나타낸 것이 퍼시스턴스 다이어그램(persistence diagram)이다. 퍼시스턴스 다이어그램(persistence diagram)을 나타내는데 필요한 데이터(persistence information)는 다음과 같이 나타난다.
퍼시스턴스 정보 = { (d, (rS, rE)) }
여기서, d는 해당 생성자의 차원이다. rS 과 rE 는 각각 해당 생성자의 생성시기와 소멸 시기이다. 즉, r을 순차적으로 증가시키는데, r = rS 일때 해당 생성자가 생성되고, r = rE 일때 해당 생성자가 소멸된다.
일례로서, 퍼시스턴스 정보는 다음과 같이 구해질 수 있다.
퍼시스턴스 정보 = {(0,(0 ,0.8)),…,(1,(0.4,0.9))}
즉, 하나의 퍼시스턴스 정보 (0, (0, 0.8))는 해당 생성자가 0차원이고, r = 0일 때 생성되었다가, r = 0.8 일 때 소멸되었다는 것을 나타낸다.
다음으로, 퍼시스턴스 정보를 퍼시스턴스 다이어그램(persistence diagram)으로 나타낸다.
퍼시스턴스 다이어그램의 x 축과 y 축은 각각 생성 시기와, 소멸 시기를 나타낸다. 그리고 각 퍼시스턴스 정보를 퍼시스턴스 다이어그램에 점(포인트)으로 표시한다. 이때, 점(포인트)의 위치는 (x,y)는 (rS,rE)에 해당하고, 포인트의 값은 차원으로 표시한다.
바람직하게는, 포인트의 값인 차원을 색상으로 표시한다. 일례로서, 빨간색은 0차원 생성자, 초록색은 1차원 생성자, 파란색은 2차원 생성자를 나타낸다.
퍼시스턴스 다이이어그램의 일례가 도 4에 도시되고 있다.
다음으로, 퍼시스턴스 다이어그램(persistence diagram)으로부터 2차원의 호몰로지 이미지를 생성하여, 이를 디스크립터로 사용한다.
바람직하게는, 퍼시스턴스 다이어그램에 가우시안 매핑(Gaussian mapping)을 적용하여, 점의 밀도에 따라 값(또는 픽셀값)을 차등적으로 부여한다. 즉, 점의 밀도가 높을수록 픽셀값을 높게 부여한다.
호몰로지 이미지의 일례가 도 5에 도시되고 있다.
하나의 3차원 점 데이터로부터 하나의 호몰로지 이미지를 생성한다.
다음으로, 모델 학습부(34)는 타겟 단백질의 디스크립터, 화합물의 디스크립터, 및, 활성 데이터를 이용하여, 신경망 모델을 학습시킨다.
신경망 모델은 DNN(Deep Neural Network) 또는 딥러닝 모델, 순환형 신경망(RNN), 합성곱 신경망(CNN) 등이 적용될 수 있다. 신경망 모델의 입력 데이터는 단백질의 디스크립터와 화합물의 디스크립터이고, 출력 데이터는 활성(active)과 비활성(inactive)이다.
활성의 예측은 특정 타겟 단백질에 대한 특정 화합물에 대한 활성 여부를 예측하는 것이므로, 하나의 타겟 단백질과 하나의 화합물은 쌍(반응 쌍)으로 적용되어야 한다. 따라서 신경망 모델의 입력(또는 전체 디스크립터)는 반응 쌍의 타겟 단백질 및 화합물의 각각 디스크립터로 구성된다. 또한, 학습을 위한 결과 값으로 활성 데이터가 사용된다. 활성 데이터는 앞서 활성데이터 수집부(31)에 의해 수집된 데이터이다.
이때, 신경망 모델에 입력되는 데이터(또는 전체 디스크립터)는 타겟 단백질의 호몰로지 이미지와, 그에 대응하는 화합물에 대한 호몰로지 이미지들이다.
바람직하게는, 이미지 처리에 효과적인 합성곱 신경망(CNN)을 이용한다. 더욱 바람직하게는, 합성곱 신경망(CNN)은 다음과 같이 구성한다.
일례로서, 합성곱 신경망은 총 3층의 합성곱 신경 블록으로 구성된다. 하나의 블록은 128개의 뉴런을 가지고 있으며, 입력 텐서는 (3,3)규격의 합성곱 필터를 통과한 뒤, ELU(exponential linear unit) 활성함수를 지나 (2,2)규격의 맥스 풀링(max pooling) 필터를 통과한 후 출력 텐서를 반환한다.
또한, 일례로서, 완전 연결 계층(Fully connected layer)은 두 개의 층으로 구성되어 있다. 첫 번째 층은 1024개의 뉴런을 가지고 있으며, 가중치(weight) 필터를 통과한 후 ELU(exponential linear unit) 활성함수를 지나 드랍아웃을 통해 다음 층으로 정보가 전달된다. 두 번째 층은 128개의 뉴런을 가지고 있으며, 가중치(weight) 필터를 통과한 후 ELU(exponential linear unit) 활성함수를 지나 드랍아웃을 통해 다음 층으로 정보가 전달된다.
출력 텐서는 소프트맥스(softmax) 활성함수를 지난 후 미리 제공된 라벨링에 따라 최적화(optimization)를 진행하게 된다.
또한, 바람직하게는, 모델 학습부(34)는 학습 데이터에 대하여 전처리를 수행한다.
본 발명의 판정은 특정 단백질에 대하여 유효 화합물(Active)(또는 활성 화합물)인지 아닌지를 판단하는 것으로 이루어져 있다. 다만, 학습에 쓰일 활성 화합물과 비활성 화합물의 비율이 비 대칭적으로(일례로서, 1:50) 차이가 있기 때문에, 대칭적으로 그 비율을 조정한다. 즉, 활성 화합물과 비활성 화합물의 비율이 1:1 또는 이에 근접하도록 전처리 작업을 수행한다.
다음으로, 활성 예측부(35)는 검사대상 단백질과 검사대상 화합물에 대하여, 각각의 디스크립터를 상기 신경망 모델에 입력시키고, 신경망 모델의 결과 값을 출력한다. 출력값이 활성이면 검사대상의 단백질에 대하여 검사대상 화합물이 활성 화합물이라고 예측하고, 출력이 비활성이면 검사대상의 단백질에 대하여 검사대상 화합물이 비활성화 화합물이라고 예측한다.
다음으로, 실험을 통한 본 발명의 효과를 도 6와 도 7을 참조하여 설명한다.
발명의 효과를 확인하기 위하여, 학습(training)에 쓰인 데이터는 총 40개의 타겟 단백질과 그와 관련된 화합물을 대상으로 진행되었다. 학습의 평가를 위해 5개의 타겟 단백질이 사용되었고 최종적으로 5개의 타겟 단백질이 성능 측정을 위해 사용되었다.
평가는 다음과 같이 진행되었다. 학습에 참여하지 않은 타겟 단백질-화합물 입력 데이터를 신경망에 입력하면, 신경망은 (1,80) 규격의 텐서를 출력한다. 이 텐서의 홀수 번째 차원 정보와 짝수 번째 차원 정보를 각각 더하여 2차원 텐서로 변환한다. 이 텐서의 첫 번째 값이 더 크면 유효한 화합물로, 두 번째 값이 더 크면 유효하지 않은 화합물로 예측하도록 설정하여 정확도를 측정하였다.
평가 기준은 ROC 곡선(roc curve)의 AUC 점수(auc score)로 설정하였으며, 평가용 데이터(evaluation set) 기준 가장 높은 AUC 점수(auc score)를 기록하였을 때의 모델을 저장하였다. 평가용 데이터와 모델 측정용 데이터(test set)에 대한 정확도 측정 결과는 도 6와 도 7의 표와 같다. 도 6은 신경망 모델의 평가(evaluation) 결과를 나타낸 표이고, 도 7은 신경망 모델의 테스트(test) 결과를 나타낸 표이다. AUC 점수(auc score)는 각각 0.99, 0.99를 기록하였다.
분자들 간의 화학 반응에 있어서, 분자를 구성하는 각 원소들의 종류와 상대적인 위치는 활성화 정도를 판단하는 중요한 요소가 된다. 따라서 이런 정보를 구체적인 수치로 나타내는 것이 본 발명을 만드는데 필요한 첫 걸음이라 할 수 있다. 이에 본 발명은, 대수학 토폴로지(Algebraic Topology)를 바탕으로 한 퍼시스턴스(Persistence Homology) 계산을 통해 화합물과 타겟 단백질의 원소정보를 표준화된 다차원 벡터로 표현하는 것을 제안하였다.
또한, 본 발명은 여러 가지 단백질과 화합물의 상보적인 3차원 구조를 학습함으로써, 특정한 단백질에 대한 학습이 아닌, 일반적인 단백질과 화합물의 결합 특성에 대한 학습이 이루어졌다. 따라서 본 발명은 특정 단백질의 구조에 구애받지 않고 다양한 단백질에 대해 활성 화합물을 예측할 수 있어, 그 적용범위가 폭넓다는 장점이 있다.
이상, 본 발명자에 의해서 이루어진 발명을 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
10 : 분석 단말 20 : 네트워크
30 : 활성 예측 시스템 31 : 활성데이터 수집부
32 : 3D데이터 형성부 33 : 디스크립터 산출부
34 : 모델 학습부 35 : 활성 예측부
40 : 데이터베이스 41 : 활성데이터 스토리지
42 : 3D데이터 스토리지 43 : 디스크립터 스토리지
44 : 신경망 모델

Claims (7)

  1. 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템에 있어서,
    타겟 단백질에 대한 화합물의 활성 또는 비활성의 활성 데이터를 수집하는 활성데이터 수집부;
    단백질 또는 화합물의 화학적 구조에서의 원자 위치에 대한 3차원 점 데이터를 형성하는 3D데이터 형성부;
    단백질 또는 화합물의 3차원 점 데이터에 대해 호몰로지(homology)을 적용하여 디스크립터를 산출하는 디스크립터 산출부;
    단백질의 디스크립터, 및 화합물의 디스크립터, 및, 활성 데이터를 이용하여, 신경망 모델을 학습시키는 모델 학습부; 및,
    신경망 모델을 이용하여 검사대상 단백질에 대한 검사대상 화합물의 활성을 예측하는 활성 예측부를 포함하는 것을 특징으로 하는 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템.
  2. 제1항에 있어서,
    상기 3D데이터 형성부는 단백질과 화합물의 3차원 결합 구조에서, 각각 단백질과 화합물의 3차원 점 데이터를 형성하는 것을 특징으로 하는 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템.
  3. 제2항에 있어서,
    상기 3D데이터 형성부는 단백질 또는 화합물의 3차원 점 데이터를 형성할 때, 각 원자별로 3차원 점 데이터를 형성하는 것을 특징으로 하는 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템.
  4. 제2항에 있어서,
    상기 3D데이터 형성부는 단백질의 경우, 화합물과의 결합 부위에서 소정의 거리 내에 위치한 원자만을 추출하여 3차원 점 데이터를 형성하는 것을 특징으로 하는 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템.
  5. 제1항에 있어서,
    상기 디스크립터 산출부는 생성된 3차원 점 데이터에 호몰로지를 적용하여 퍼시스턴스 정보를 추출하고, 추출된 퍼시스턴시 정보를 퍼시스턴스 다이어그램으로 표시하고, 퍼시스턴스 다이어그램에서 호몰로지 이미지를 생성하여 디스크립터로 생성하는 것을 특징으로 하는 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템.
  6. 제5항에 있어서,
    상기 디스크립터 산출부는 상기 퍼시스턴스 정보를 생성자의 차원, 해당 생성자의 생성 시기, 및 해당 생성자의 소멸 시기로 구성하고, 각 퍼시스턴스 정보를 상기 퍼시스턴스 다이어그램 상의 점으로 표시하되, 생성 시기와 소멸 시기를 다이어그램의 위치 좌표로 하고, 차원 값을 점의 색상 값으로 설정하는 것을 특징으로 하는 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템.
  7. 제5항에 있어서,
    상기 디스크립터 산출부는 상기 퍼시스턴스 다이어그램에 가우시안 매핑을 수행하여 호몰로지 이미지를 생성하는 것을 특징으로 하는 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템.

KR1020190107481A 2019-08-30 2019-08-30 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템 KR20210026541A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190107481A KR20210026541A (ko) 2019-08-30 2019-08-30 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190107481A KR20210026541A (ko) 2019-08-30 2019-08-30 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템

Publications (1)

Publication Number Publication Date
KR20210026541A true KR20210026541A (ko) 2021-03-10

Family

ID=75148277

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190107481A KR20210026541A (ko) 2019-08-30 2019-08-30 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템

Country Status (1)

Country Link
KR (1) KR20210026541A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114974407A (zh) * 2022-05-18 2022-08-30 兰州大学 一种化合物-靶蛋白绑定关系预测方法及系统
KR102525028B1 (ko) 2022-10-07 2023-04-24 충남대학교산학협력단 화합물 구조의 활성화 예측을 위한 ADis QSAR 모델 구축 장치 및 그 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180058648A (ko) 2016-11-24 2018-06-01 한양대학교 산학협력단 비구조-구조 전이 부위를 표적으로 하는 신약 후보 물질 발굴 방법 및 신약 후보 물질 발굴 장치
KR20190000167A (ko) 2017-06-22 2019-01-02 한국과학기술원 유사 약리활성 그룹 화합물들의 조각구조 특성 연관규칙을 기반으로 신규 선도물질 예측 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180058648A (ko) 2016-11-24 2018-06-01 한양대학교 산학협력단 비구조-구조 전이 부위를 표적으로 하는 신약 후보 물질 발굴 방법 및 신약 후보 물질 발굴 장치
KR20190000167A (ko) 2017-06-22 2019-01-02 한국과학기술원 유사 약리활성 그룹 화합물들의 조각구조 특성 연관규칙을 기반으로 신규 선도물질 예측 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
http://dude.docking.org/

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114974407A (zh) * 2022-05-18 2022-08-30 兰州大学 一种化合物-靶蛋白绑定关系预测方法及系统
KR102525028B1 (ko) 2022-10-07 2023-04-24 충남대학교산학협력단 화합물 구조의 활성화 예측을 위한 ADis QSAR 모델 구축 장치 및 그 방법

Similar Documents

Publication Publication Date Title
Zhao et al. HyperAttentionDTI: improving drug–protein interaction prediction by sequence-based deep learning with attention mechanism
Hochuli et al. Visualizing convolutional neural network protein-ligand scoring
Tsubaki et al. Compound–protein interaction prediction with end-to-end learning of neural networks for graphs and sequences
Li et al. TrimNet: learning molecular representation from triplet messages for biomedicine
Ballester Selecting machine-learning scoring functions for structure-based virtual screening
Kortagere et al. New predictive models for blood–brain barrier permeability of drug-like molecules
Li et al. Effective drug–target interaction prediction with mutual interaction neural network
Ahmed et al. Efficient iterative virtual screening with Apache Spark and conformal prediction
Isdahl et al. Out-of-the-box reproducibility: A survey of machine learning platforms
Knutson et al. Decoding the protein–ligand interactions using parallel graph neural networks
Hassan et al. DLSCORE: A deep learning model for predicting protein-ligand binding affinities
KR20210026541A (ko) 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템
Demir et al. ToDD: Topological compound fingerprinting in computer-aided drug discovery
Su et al. Multi-view heterogeneous molecular network representation learning for protein–protein interaction prediction
Li et al. DyScore: A boosting scoring method with dynamic properties for identifying true binders and nonbinders in structure-based drug discovery
ur Rehman et al. Multi-dimensional scaling based grouping of known complexes and intelligent protein complex detection
Bongini et al. Glycine-induced formation and druggability score prediction of protein surface pockets
Gniewek et al. Learning physics confers pose-sensitivity in structure-based virtual screening
Zhao et al. Pareto-based many-objective convolutional neural networks
KR20210026543A (ko) 복수의 인공신경망 모델 기반 단백질 결합 화합물의 활성 예측 시스템
Wong et al. PLW: Probabilistic Local Walks for detecting protein complexes from protein interaction networks
Hadfield et al. Exploring the ability of machine learning-based virtual screening models to identify the functional groups responsible for binding
KR20210027668A (ko) 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템
Mondal Algorithms for data mining and bio-informatics
Xia et al. Drug-target binding affinity prediction based on graph neural networks and word2vec

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application